• 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
  • 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
最新新聞
2025花蓮夏戀嘉年華開首夜 5樂團輪番開唱引爆東大門
中原大學推動暑期實踐計畫 鼓勵學生拓展國際視野、落實在地關懷
基市推動三大立體停車場ROT案招商 謝國樑:打造融合美學與智慧的多功能空間
日本關稅降至15%!承諾投資5500億美元 同意開放市場 川普:明天將與歐盟達成協議
趙少康陪王鴻薇掃街 憂綠贏會沒收民生法案
114污水banner
1140707-0720-地價稅
1140721-0803-電子稅單
05.banner_工作區域 1 複本
S__48128050
墨新聞 MORE News > 合作媒體 > OpenAI模型o3評測起爭議 業界籲AI基準測試需揭露真實運算條件
合作媒體

OpenAI模型o3評測起爭議 業界籲AI基準測試需揭露真實運算條件

商傳媒
Last updated: 2025/04/21 10:26
商傳媒
Share
8 Min Read
OpenAI模型o3評測起爭議 業界籲AI基準測試需揭露真實運算條件
分享文章

OpenAI模型o3評測起爭議 業界籲AI基準測試需揭露真實運算條件
商傳媒|記者責任編輯/綜合外電報導

科技媒體《TechCrunch》最新報導,人工智慧領導企業OpenAI推出的o3模型,遭爆實際表現與測試數據不一致的爭議。根據外部研究機構Epoch AI公布第三方測試結果顯示,OpenAI去年底宣稱,o3模型在高難度數學測試集FrontierMath上的正確率達25%,結果實際表現僅約10%,遠低於當初直播中宣傳的成績,引發產業對其測試透明度與評估標準的質疑。

OpenAI技術人員回應表示,當時展示的是以「高運算設定與內部強化腳本支援」的版本,而近期公開推出的o3模型則為專為「實用性與運行效率優化」的產品版本,因此在標準測試上表現有所差異。

根據Epoch AI近日公布的測試結果,o3模型在更新版本FrontierMath-2025測試集的答對率約10%,與OpenAI去年直播中聲稱的「超過25%」相距甚遠。研究團隊強調,該差異可能來自於:

  • OpenAI當時使用較小範圍(180題)舊版測試集
  • 測試使用更高階、具高推論能力的模型架構
  • 內部運行環境使用強化運算(aggressive test-time compute)與模型腳手架(scaffold)

然而,即便如此,OpenAI並未在最初發布成果時,明確標註上述限制,導致部分用戶、開發者對於產品真實性能產生誤解。

針對評測爭議,OpenAI技術團隊成員Wenda Zhou在上週的直播中回應指出,公開的o3版本已做過優化以適應產品實際需求,「我們希望這個版本更快、更省資源,也更貼近真實使用情境」。Wenda Zhou補充說明:「[o3的公開版本]雖非最強運算配置,但在效率、應用層面具備更好平衡,用戶不需等待數十秒才能得到答案」。

OpenAI也指出,目前旗下o3-mini-high與o4-mini模型,在FrontierMath測試中的表現已優於原始o3,且預計未來數週內將推出的o3-pro進階版本,應可填補此一性能落差。

實際上,這並非AI業界首次爆發基準測試爭議。例如:Meta近期承認其部分測試數據來自尚未公開版本,馬斯克旗下xAI則因「誤導性基準圖表」遭批,另外,Epoch AI也曾被質疑延後公開其與OpenAI的資金關係。

專家認為,隨著生成式AI市場競爭白熱化,企業為爭取媒體曝光與投資信心,往往選擇在最佳情況下公開模型成績,造成評測數據與實際使用體驗不一致。對於仰賴API或OEM應用AI模型的新創與企業來說,模型表現真實性影響決策甚鉅,因此業界呼籲:

  • AI模型商須揭露測試設定與推論資源條件
  • 第三方基準測試機構需保持獨立性與資金透明
  • 投資人與用戶應要求「實測效能報告」而非行銷報表

分享此文:

  • 按一下以分享至 Facebook(在新視窗中開啟) Facebook
  • 按一下即可分享至 X(在新視窗中開啟) X

請按讚:

喜歡 正在載入...
Previous Article 詐騙財損7成因臉書受害 李禮仲批技術濫用漠視社會責任 詐騙財損7成因臉書受害 李禮仲批技術濫用漠視社會責任
Next Article 台積電利多不漲、資金流竄至中小型股 台股震盪續跌逾200點 台積電利多不漲、資金流竄至中小型股 台股震盪續跌逾200點

近期消息

日本關稅降至15%!承諾投資5500億美元 同意開放市場 川普:明天將與歐盟達成協議
日本關稅降至15%!承諾投資5500億美元 同意開放市場 川普:明天將與歐盟達成協議
熱門
2025/07/23
趙少康陪王鴻薇掃街 憂綠贏會沒收民生法案
趙少康陪王鴻薇掃街 憂綠贏會沒收民生法案
熱門
2025/07/23
投資美國5500億美元+開放農產品、稻米及汽車市場 朱立倫:日本巨大讓步 台灣要犧牲什麼?
投資美國5500億美元+開放農產品、稻米及汽車市場 朱立倫:日本巨大讓步 台灣要犧牲什麼?
熱門
2025/07/23
韓媒報導韓請求台灣支持戒嚴?總統府否認:強烈遺憾,要求更正
韓媒報導韓請求台灣支持戒嚴?總統府否認:強烈遺憾,要求更正
熱門
2025/07/23
  • 關於我們
  • 隱私權政策
  • 聯絡我們
  • 關於我們
  • 隱私權政策
  • 聯絡我們
Copyright©MORE News
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?

%d
    為了帶給你更好的瀏覽體驗我們的網站中有使用Cookie,幫助我們改善網站的結構和行銷分析。如果你同意使用請點擊了解,我們會權利提供你更完善的服務!Ok