• 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
  • 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
最新新聞
償還開發成本! 水湳區段徵收區配餘地及第13期、第14期市地重劃區抵費地標售 標脫率18%
千禧之愛健康基金會邀請萬芳醫院響應「蔬果佔一半」 偕統一超商免費提供1600份沙拉為員工加菜
台中市優質紅龍果評鑑結果揭曉 外埔區劉興陽勇奪冠軍!
從家傳秘方到國際舞臺 用麻油展現臺灣美食創意 文化軟實力
讓世界看見阿里山!國際見學工作坊嘉市登場 黃敏惠促共同推動林鐵申遺
165打詐儀錶版FOR墨新聞
979582
114污水banner
1140707-0720-地價稅
1140721-0803-電子稅單
05.banner_工作區域 1 複本
S__48128050
墨新聞 MORE News > 合作媒體 > AI自信滿滿給出錯誤答案 OpenAI:語言模型幻覺恐難根治
合作媒體

AI自信滿滿給出錯誤答案 OpenAI:語言模型幻覺恐難根治

商傳媒
Last updated: 2025/09/08 23:10
商傳媒
Share
6 Min Read
AI自信滿滿給出錯誤答案 OpenAI:語言模型幻覺恐難根治
分享文章

商傳媒|記者責任編輯/綜合外電報導

OpenAI近日發表最新研究,聚焦於大型語言模型(LLM)如GPT-5與ChatGPT仍存在「幻覺」(hallucinations)等問題提出建議。科技媒體《TechCrunch》報導,這份研究指出,儘管近年已透過技術迭代、有效降低錯誤生成,但「生成看似合理卻不正確的內容」仍是所有大型語言模型的根本挑戰,且很可能無法根治。

研究團隊舉例,當他們詢問某款廣泛使用的聊天機器人「Adam Tauman Kalai博士論文題目」時,系統分別給出三個答案,全數錯誤,隨後再問其生日,得到三個不同日期,仍然全錯;團隊指出,這種「自信卻錯誤」的回答,正是語言模型典型的「幻覺」模式。

研究指出,訓練機制是產生「幻覺」的原因之一,大型語言模型的預訓練過程,主要任務是「預測下一個字」,資料中並沒有標示真偽。換言之,模型大量接觸的是流暢語言的「正樣本」,必須近似語言分布,卻缺乏判斷事實真假的訊號。

拼字或括號因規律明顯,可隨規模放大而減少錯誤;但如「某人寵物生日」這類低頻且任意的知識,無法靠語言模式推導,因此容易出現幻覺。

此外,研究團隊強調,癥結不只在訓練,而在於「評估方式」設下錯誤誘因。目前模型多以「答對率」作為主要指標,這類機制鼓勵模型在不知道答案時「亂猜」,因為猜對還有分數,不答則必定零分。

OpenAI建議,評估方式應比照SAT等考試,引入「錯誤扣分」或「不作答給部分分數」的概念。也就是說,系統若表達「不確定」或「不知道」時,應得到正向分數,而非僅獎勵正確率。研究報告直言:「若主流排行榜繼續獎勵幸運猜中,模型就會持續學習猜測。」

研究人員呼籲,產業需全面調整評估標準,而非僅在部分測試中加入「不確定性評估」;唯有將「懲罰過度自信產生的錯誤」納入核心評測,才能真正降低幻覺生成的頻率,避免模型因分數導向而「硬猜」成性。


Previous Article 綻放女力  決策同行 勞工局致力讓工會更多元有力 綻放女力 決策同行 勞工局致力讓工會更多元有力
Next Article 教育新政震盪留學生 專家揭「先移民再留學」逆向攻略,免簽證抽籤風險! 教育新政震盪留學生 專家揭「先移民再留學」逆向攻略,免簽證抽籤風險!

近期消息

尼泊爾撤回社群禁令 Z世代反貪腐示威引發流血 至少19死、首都宵禁
尼泊爾撤回社群禁令 Z世代反貪腐示威引發流血 至少19死、首都宵禁
熱門
2025/09/09
柯文哲交保 柯志恩:藍白合作絕對更凝聚
柯文哲交保 柯志恩:藍白合作絕對更凝聚
熱門
2025/09/08
柯文哲步出法院 陳佩琪含淚攬著不放
柯文哲步出法院 陳佩琪含淚攬著不放
熱門
2025/09/08
小草緊圍柯文哲 黃國昌和館長護送上車
小草緊圍柯文哲 黃國昌和館長護送上車
熱門
2025/09/08
  • 關於我們
  • 隱私權政策
  • 聯絡我們
  • 關於我們
  • 隱私權政策
  • 聯絡我們
Copyright©MORE News
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?

為了帶給你更好的瀏覽體驗我們的網站中有使用Cookie,幫助我們改善網站的結構和行銷分析。如果你同意使用請點擊了解,我們會權利提供你更完善的服務!