• 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
  • 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
最新新聞
智匯健康.腦力長青 / 失智防治與逆齡醫學跨界論壇高雄登場
台中四漁港同步出海清理295公斤海漂垃圾 推動潔淨海洋願景
中投宗教文化盛事! 烏日玉闕朝仁宮徒步會香草屯敦和宮 鄭副市長送駕祈求國泰民安
蘇心甯Lala有了「閨蜜」越變越美麗:十年後重返展場驚艷全場 時間讓我蛻變得更美麗
從醫學論壇到跨界展演;音樂人-陳佩君 讓音樂成為活動與人心之間的橋梁
S__55287864
墨水映像數位行銷有限公司-w800xh98px
02.Banner_工作區域 1-F
165打詐儀錶版FOR墨新聞
979582
114污水banner
1140707-0720-地價稅
1140721-0803-電子稅單
首頁 » AI模型訓練策略新進展 RLSD兼顧穩定與效率
合作媒體

AI模型訓練策略新進展 RLSD兼顧穩定與效率

商傳媒
商傳媒
Published: 2026/04/11
Share
8 Min Read
AI模型訓練策略新進展 RLSD兼顧穩定與效率
AI模型訓練策略新進展 RLSD兼顧穩定與效率
圖/本報AI製圖(示意圖)

商傳媒|葉安庭/綜合外電報導

人工智慧領域研究人員近日提出一項名為「自我蒸餾強化學習」(RLSD)的新型策略,旨在解決大型語言模型(LLM)訓練過程中,如何同時維持學習穩定性與提升效率的挑戰。這項研究結合了傳統上兩種主要的模型訓練途徑,為AI開發帶來新的方向。

現行大型語言模型的訓練主要有兩種策略。其一是「策略蒸餾」(on-policy distillation, OPD),透過一個大型的「教師模型」在每個步驟中,為「學生模型」提供密集、細緻到詞元(token)層級的指導。另一種是「可驗證獎勵強化學習」(reinforcement learning with verifiable rewards, RLVR),這種方法從環境中獲取稀疏、二進位的回饋(例如正確或錯誤、已解決或未解決),並與真實情況連結。

然而,研究發現純粹的「策略自我蒸餾」(on-policy self-distillation, OPSD)——即模型本身同時扮演學生與教師角色——存在穩定性問題。儘管在初期能迅速改善模型表現,但很快就會因為「資訊洩漏」導致學習崩潰。這是由於教師模型知識源自學生模型自身,會不斷強化錯誤而非修正,進而產生不穩定、容易自我滿足但無法泛化的解決方案。在純粹的OPSD中,學生與教師模型間的克勞爾散度(KL divergence)表現出不穩定性,顯示模型在震盪中學習到不穩固的解方。

相較之下,RLVR雖能提供可靠的方向性回饋,但當正確結果出現頻率不高時,學習進度會顯得緩慢。而自我蒸餾雖能提供密集的即時回饋,卻因缺乏外部事實的依據,容易引發資訊洩漏。

為解決上述問題,研究人員提出了RLSD策略。此方法精巧地將RLVR與自我蒸餾的角色分開。RLSD利用RLVR提供稀疏但 anchored 於真實情況的方向性回饋,同時運用自我蒸餾來校準策略梯度更新的幅度,而非直接作為學習目標。這種方式透過計算學生與教師模型在詞元層級的策略差異,將學習重點放在分歧最大的區域。

透過結合兩者優勢,RLSD策略避免了資訊洩漏問題,因為學習方向來自環境,而學習幅度的校準則來自模型本身的自我比較。根據研究結果顯示,RLSD不僅能維持RLVR的訓練穩定性,更能達到比單純RLVR更高的收斂上限。這項混合式方法使學習能更集中於正確路徑中的關鍵步驟,以及錯誤路徑中容易出錯的環節,為AI模型訓練帶來更智慧、更高效的解決方案。

Previous Article Reddit社群經營結合AI可見度:專家揭秘品牌增長與營收新策略 Reddit社群經營結合AI可見度:專家揭秘品牌增長與營收新策略
Next Article 美國貿易法院審查川普關稅合法性 總統貿易權限再受挑戰 美國貿易法院審查川普關稅合法性 總統貿易權限再受挑戰

近期文章

  • 智匯健康.腦力長青 / 失智防治與逆齡醫學跨界論壇高雄登場
  • 台中四漁港同步出海清理295公斤海漂垃圾 推動潔淨海洋願景
  • 「劉玉美水墨創作個展」葫蘆墩登場 透過筆墨與山川對話歡迎前往欣賞
  • 當太平洋的風吹進科技城 台東「東窩禮」快閃新竹看見土地的綠色競爭力
  • 2026春日田園嘉年華平鎮登場 張善政市長:打造全臺最友善育兒城市

近期留言

尚無留言可供顯示。
  • 關於我們
  • 隱私權政策
  • 聯絡我們
  • 關於我們
  • 隱私權政策
  • 聯絡我們
Copyright©MORE News
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?

為了帶給你更好的瀏覽體驗我們的網站中有使用Cookie,幫助我們改善網站的結構和行銷分析。如果你同意使用請點擊了解,我們會權利提供你更完善的服務!