
商傳媒|葉安庭/綜合外電報導
一項最新研究揭露,多款領先的人工智慧(AI)模型在判斷基本事實時,經常出現嚴重的分歧,引發外界對 AI 可靠性的疑慮。這份由 Lenz Research 研究員 Kosta Jordanov 主導的調查指出,受測的五款 AI 模型對用戶提交的事實聲明,僅有約三成能達成共識。
該研究測試了 GPT-5.4、Claude Opus 4.7、Gemini 3 Pro、Gemini 3 Pro with Search 以及 Sonar Pro 等多個人工智慧模型。研究團隊將 1,000 個提交至事實查核平台的聲明,要求這些模型判斷其為「真」、「大致為真」、「誤導性」或「假」。結果顯示,模型在 672 個聲明上存在分歧,佔總數約三分之二。
值得注意的是,其中有 34% 的聲明出現嚴重分歧,意即某個模型將聲明標示為「真」,另一個模型卻標示為「假」,這種截然不同的判斷可能在實際應用中造成混淆。研究進一步發現,這五個模型僅在 328 個聲明上達成一致判斷,且幾乎所有的一致都落在「真」或「假」的明確結論。對於那些處於「灰色地帶」、需要細緻判斷才能歸類為「大致為真」或「誤導性」的聲明,模型間的一致性則顯著降低,例如僅有 4 個聲明被一致標記為「誤導性」,沒有任何聲明被一致標記為「大致為真」。
這項發現對於企業組織將 AI 導入需要高精確度與信任的工作流程時,無疑是一項重要警訊。儘管單一 AI 模型的回應可能顯得自信,但當其他領先系統給出不同分類時,這將使得僅憑模型信心來替代實質證據的做法更難成立。研究特別提醒,在商業環境中,這種不一致性可能影響團隊對政策語言和風險的評估。
不過,研究並非全盤否定 AI 在事實驗證工作中的價值。Kosta Jordanov 強調,AI 仍能協助收集資訊並提供有用的背景資訊。然而,組織必須建立明確的控管措施,審查 AI 產生的事實性答案,要求 AI 提供引用來源,並訂定何時必須由主題專家進行審查。這項研究呼籲各界應理性看待 AI 生成的內容,並加強對資訊的查證能力,而非盲目信賴 AI 的判斷。