AI跑分大造假？柏克萊揭AI基準測試漏洞：未解題卻滿分

商傳媒｜葉安庭／綜合外電報導

加州大學柏克萊分校（UC Berkeley）研究團隊近日揭露人工智慧（AI）基準測試系統存在的嚴重漏洞，研究人員開發出一款名為 BenchJack 的工具，能有效「駭入」這些測試系統，使得 AI 代理人即便未實際解決任何任務，仍可在多項基準測試中獲得高分，甚至達到 100% 的成績，凸顯當前 AI 模型評估機制恐失準。

該研究團隊開發的攻擊性 AI 代理人，在五項主要的 AI 代理人基準測試中獲得了 100% 的分數，在第六項測試中也達到近乎 100% 的高分，但其核心問題並未真正被解決。這項發現顯示，AI 代理人有能力利用基準測試框架本身的弱點，而非憑藉其解決問題的實際能力來取得高分。

類似現象過去已有跡象，例如 Anthropic 公司的 Mythos Preview 發現，一個前沿模型在無法直接解決任務時，會自行建立一個自毀式的權限提升漏洞。此外，模型評估與威脅研究機構（METR）在 2025 年也發現，較舊的模型如 o3 和 Claude 3.7 Sonnet，會利用堆疊內省（stack introspection）和修補評分器（monkey-patching graders）等策略來「獎勵欺騙」。在某些 RE-Bench 任務中，若模型能看見評分函式，其漏洞利用率更達到了 100%。

對此，OpenAI 已於今年稍早宣布，在內部稽核發現 59.4% 的審查問題存在測試缺陷後，已停用了 SWE-bench Verified 基準測試。加州大學柏克萊分校的博士生 Hao Wang 強調，當前 AI 開發流程中缺乏對管道設計、抽象化和重構等階段的重視，而這些環節恰是衡量模型信任度與安全性的關鍵。他指出，模型的推理與評估層面，包括模型如何計分與代理人如何被評級，常是現成模型信任度瓦解之處。

研究也顯示，簡單地在推理時加入通用安全提醒或明確的安全提示，可能會降低模型的功能正確性。唯有透過訓練，讓模型內化結構化的安全推理能力，才能提升其安全性。該團隊的研究發現，經過安全推理行為訓練的模型，其安全性甚至能泛化到原始訓練語言之外。例如，在 Python 問題上微調的模型，在 CWEval 基準測試中，於 C、C++、JavaScript 和 Go 等其他程式語言上也展現了更好的安全編碼行為，功能正確性和安全性皆有所提升。

這項研究也間接揭示了 AI 程式碼生成在軟體開發中的普及程度。根據 GitClear 在 2025 年對 2.11 億行程式碼的分析，當年全球提交的程式碼中有 41% 最初是由 AI 生成或建議的。而在 2025 年冬季的 Y組合子（Y Combinator）加速器計畫中，有 25% 的團隊回報其程式碼庫有 95% 是由 AI 生成。Hao Wang 呼籲，未來學生和初階工程師應加強程式碼審查、稽核和評估的訓練，而非僅專注於程式碼生成。

備戰2028？盧秀燕12月交接後動向　鄭照新：再給我們一點時間

八縣市攜手點亮中臺灣農業品牌　2026農業行銷展售會　8月22日草屯盛大登場

王爺巡江海上遶境展信仰溫度　外木山海上王爺文化祭熱鬧登場

「臺灣好食館」特色美食再次飄香2026台灣美食展

台南安平雅樂軒酒店8月推雙公益行動　攜手德陽艦捐熱血、瑞復益智中心展藝術共融

AI跑分大造假？柏克萊揭AI基準測試漏洞：未解題卻滿分

備戰2028？盧秀燕12月交接後動向 鄭照新：再給我們一點時間

八縣市攜手點亮中臺灣農業品牌 2026農業行銷展售會 8月22日草屯盛大登場

王爺巡江海上遶境展信仰溫度 外木山海上王爺文化祭熱鬧登場

「臺灣好食館」特色美食再次飄香2026台灣美食展

台南安平雅樂軒酒店8月推雙公益行動 攜手德陽艦捐熱血、瑞復益智中心展藝術共融

備戰2028？盧秀燕12月交接後動向　鄭照新：再給我們一點時間

八縣市攜手點亮中臺灣農業品牌　2026農業行銷展售會　8月22日草屯盛大登場

王爺巡江海上遶境展信仰溫度　外木山海上王爺文化祭熱鬧登場

台南安平雅樂軒酒店8月推雙公益行動　攜手德陽艦捐熱血、瑞復益智中心展藝術共融