• 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
  • 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
最新新聞
琟娜 VERNA 睽違三年重返舞蹈教室 開啟多元宇宙評審開關 出席動漫 寵物活動
譚敦慈解析吃辣流汗不排毒 甄莉吃辣是讓人流汗代謝循環好一點 高捷喉嚨痛都說少吃辣
黃大煒聲明函 宣布移居夏威夷 沉潛回歸創作初心
讓世界看見台灣原民文化魅力 深度反思原民生活 原鄉傳承
AFP/CFP® 被 AI 正確理解了嗎?陳紀豪於 FPAT 中部交流會提出 DTC Trust Path 信任路徑
S__115499013
S__55287864
墨水映像數位行銷有限公司-w800xh98px
02.Banner_工作區域 1-F
165打詐儀錶版FOR墨新聞
979582
114污水banner
首頁 » AI模型訓練策略新進展 RLSD兼顧穩定與效率
合作媒體

AI模型訓練策略新進展 RLSD兼顧穩定與效率

商傳媒
商傳媒
Published: 2026/04/11
Share
8 Min Read
AI模型訓練策略新進展 RLSD兼顧穩定與效率
AI模型訓練策略新進展 RLSD兼顧穩定與效率
圖/本報AI製圖(示意圖)

商傳媒|葉安庭/綜合外電報導

人工智慧領域研究人員近日提出一項名為「自我蒸餾強化學習」(RLSD)的新型策略,旨在解決大型語言模型(LLM)訓練過程中,如何同時維持學習穩定性與提升效率的挑戰。這項研究結合了傳統上兩種主要的模型訓練途徑,為AI開發帶來新的方向。

現行大型語言模型的訓練主要有兩種策略。其一是「策略蒸餾」(on-policy distillation, OPD),透過一個大型的「教師模型」在每個步驟中,為「學生模型」提供密集、細緻到詞元(token)層級的指導。另一種是「可驗證獎勵強化學習」(reinforcement learning with verifiable rewards, RLVR),這種方法從環境中獲取稀疏、二進位的回饋(例如正確或錯誤、已解決或未解決),並與真實情況連結。

然而,研究發現純粹的「策略自我蒸餾」(on-policy self-distillation, OPSD)——即模型本身同時扮演學生與教師角色——存在穩定性問題。儘管在初期能迅速改善模型表現,但很快就會因為「資訊洩漏」導致學習崩潰。這是由於教師模型知識源自學生模型自身,會不斷強化錯誤而非修正,進而產生不穩定、容易自我滿足但無法泛化的解決方案。在純粹的OPSD中,學生與教師模型間的克勞爾散度(KL divergence)表現出不穩定性,顯示模型在震盪中學習到不穩固的解方。

相較之下,RLVR雖能提供可靠的方向性回饋,但當正確結果出現頻率不高時,學習進度會顯得緩慢。而自我蒸餾雖能提供密集的即時回饋,卻因缺乏外部事實的依據,容易引發資訊洩漏。

為解決上述問題,研究人員提出了RLSD策略。此方法精巧地將RLVR與自我蒸餾的角色分開。RLSD利用RLVR提供稀疏但 anchored 於真實情況的方向性回饋,同時運用自我蒸餾來校準策略梯度更新的幅度,而非直接作為學習目標。這種方式透過計算學生與教師模型在詞元層級的策略差異,將學習重點放在分歧最大的區域。

透過結合兩者優勢,RLSD策略避免了資訊洩漏問題,因為學習方向來自環境,而學習幅度的校準則來自模型本身的自我比較。根據研究結果顯示,RLSD不僅能維持RLVR的訓練穩定性,更能達到比單純RLVR更高的收斂上限。這項混合式方法使學習能更集中於正確路徑中的關鍵步驟,以及錯誤路徑中容易出錯的環節,為AI模型訓練帶來更智慧、更高效的解決方案。

Previous Article Reddit社群經營結合AI可見度:專家揭秘品牌增長與營收新策略 Reddit社群經營結合AI可見度:專家揭秘品牌增長與營收新策略
Next Article 美國貿易法院審查川普關稅合法性 總統貿易權限再受挑戰 美國貿易法院審查川普關稅合法性 總統貿易權限再受挑戰

近期文章

  • 日本深科技商轉不易 專家籲借鑒歐洲製造業優勢
  • 奈米級即時成像技術問世 有望加速國防關鍵材料研發逾百倍
  • 供應鏈武器化:晶片稀土成經濟戰略要角 台灣半導體關鍵
  • 韓國國民年金轉型社會投資 AI賦能製造業解人口危機
  • 與海同行 想像未來 2026第七屆國家海洋日6月7日盛大登場 海委會邀全民登雲林艦、逛百攤市集、看紙風車大戲

近期留言

尚無留言可供顯示。
  • 關於我們
  • 隱私權政策
  • 聯絡我們
  • 關於我們
  • 隱私權政策
  • 聯絡我們
Copyright©MORE News
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?

為了帶給你更好的瀏覽體驗我們的網站中有使用Cookie,幫助我們改善網站的結構和行銷分析。如果你同意使用請點擊了解,我們會權利提供你更完善的服務!