
大型語言模型(Large Language Model,LLM)是近年生成式AI的核心技術,能理解並產生自然語言。其強大能力來自系統化的LLM訓練流程,主要分為3個階段:預訓練(Pre-training)、微調(Fine-tuning),以及人類回饋強化學習(RLHF)。
1. 預訓練:建立通用語言能力
預訓練是LLM訓練中最基礎、也最耗費資源的階段。模型會學習大量未標註的文本資料,例如百科全書、新聞、書籍與公開網站內容,資料量通常以兆個詞元計算。訓練方式採用自監督學習,模型的核心任務是根據前文預測下一個最可能出現的詞。透過反覆訓練,模型逐步掌握語法結構、語意關係、上下文理解與基本邏輯,讓模型能同時考量整段文字中不同詞彙的關聯。完成預訓練後,LLM已具備廣泛的語言理解能力,但仍缺乏明確的任務導向。
2. 微調:讓模型學會實際任務
微調的目的,是將通用語言模型轉化為可實際應用的AI系統。此階段使用由人類準備的「輸入 — 輸出」範例資料,例如問答、摘要、翻譯或指令回應,透過監督式學習,引導模型產生正確且有用的回答。近年常見的指令微調,能幫助模型更準確理解人類的指示方式,使回應更清楚、結構更完整,也更符合實際使用情境。經過微調後,LLM在各類實務任務上的表現會明顯提升。
3. 人類回饋強化學習:對齊人類偏好與行為
即使完成微調,模型仍可能產生不理想的回應。因此許多大型語言模型會進一步進行RLHF訓練。在此階段,人類標註者會對模型生成的多個回答進行評分或排序,這些回饋會轉換為獎勵訊號,並透過強化學習演算法調整模型行為,讓輸出在內容品質、語氣與安全性上更貼近人類偏好。
理解大型語言模型的訓練方式,有助於使用者更有效地與AI協作,提出更精準的指令,並判斷模型輸出的限制與風險。對職場人士而言,這不僅能提升寫作、分析與問題解決的效率,也能在快速導入AI的產業環境中建立競爭優勢。隨著LLM成為各行各業的重要工具,具備基本的訓練流程認知,將逐漸成為職業發展中的一項實用能力。
文:Kent Chan
FevaWorks導師