AI 模型事實判斷分歧大新研究揭僅三成共識

商傳媒｜葉安庭／綜合外電報導

一項最新研究揭露，多款領先的人工智慧（AI）模型在判斷基本事實時，經常出現嚴重的分歧，引發外界對 AI 可靠性的疑慮。這份由 Lenz Research 研究員 Kosta Jordanov 主導的調查指出，受測的五款 AI 模型對用戶提交的事實聲明，僅有約三成能達成共識。

該研究測試了 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search 以及 Sonar Pro 等多個人工智慧模型。研究團隊將 1,000 個提交至事實查核平台的聲明，要求這些模型判斷其為「真」、「大致為真」、「誤導性」或「假」。結果顯示，模型在 672 個聲明上存在分歧，佔總數約三分之二。

值得注意的是，其中有 34% 的聲明出現嚴重分歧，意即某個模型將聲明標示為「真」，另一個模型卻標示為「假」，這種截然不同的判斷可能在實際應用中造成混淆。研究進一步發現，這五個模型僅在 328 個聲明上達成一致判斷，且幾乎所有的一致都落在「真」或「假」的明確結論。對於那些處於「灰色地帶」、需要細緻判斷才能歸類為「大致為真」或「誤導性」的聲明，模型間的一致性則顯著降低，例如僅有 4 個聲明被一致標記為「誤導性」，沒有任何聲明被一致標記為「大致為真」。

這項發現對於企業組織將 AI 導入需要高精確度與信任的工作流程時，無疑是一項重要警訊。儘管單一 AI 模型的回應可能顯得自信，但當其他領先系統給出不同分類時，這將使得僅憑模型信心來替代實質證據的做法更難成立。研究特別提醒，在商業環境中，這種不一致性可能影響團隊對政策語言和風險的評估。

不過，研究並非全盤否定 AI 在事實驗證工作中的價值。Kosta Jordanov 強調，AI 仍能協助收集資訊並提供有用的背景資訊。然而，組織必須建立明確的控管措施，審查 AI 產生的事實性答案，要求 AI 提供引用來源，並訂定何時必須由主題專家進行審查。這項研究呼籲各界應理性看待 AI 生成的內容，並加強對資訊的查證能力，而非盲目信賴 AI 的判斷。

臺北又拿世界第一！蔣萬安秀「最安全城市」招牌拚觀光

9公尺蜘蛛人降臨大稻埕　水岸光廊成七夕最夯約會景點

長榮內線交易案從告發到偵辦　金管會證交所遭質疑睡著了嗎？

精舍案報導與卷證現落差盼回歸證據審判釐清起訴範圍與客觀事實避免媒體定性流於結論先行

巴威遇見「好威」!東華第 29 屆「你來,做大學生」畢業典禮見證勇氣與共融

AI 模型事實判斷分歧大新研究揭僅三成共識

臺北又拿世界第一！蔣萬安秀「最安全城市」招牌拚觀光

9公尺蜘蛛人降臨大稻埕 水岸光廊成七夕最夯約會景點

長榮內線交易案從告發到偵辦 金管會證交所遭質疑睡著了嗎？

精舍案報導與卷證現落差盼回歸證據審判 釐清起訴範圍與客觀事實 避免媒體定性流於結論先行

巴威遇見「好威」!東華第 29 屆「你來,做大學生」畢業典禮見證 勇氣與共融

9公尺蜘蛛人降臨大稻埕　水岸光廊成七夕最夯約會景點

長榮內線交易案從告發到偵辦　金管會證交所遭質疑睡著了嗎？

精舍案報導與卷證現落差盼回歸證據審判釐清起訴範圍與客觀事實避免媒體定性流於結論先行

巴威遇見「好威」!東華第 29 屆「你來,做大學生」畢業典禮見證勇氣與共融