• 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
  • 熱門
  • 地方
  • 生活
  • 產經
  • 綜合
  • 娛樂
  • 文教
  • 身心𩆜
  • 醫藥健康
  • 旅遊
  • 美食
  • 體育
  • 法律天地
  • 合作媒體
最新新聞
建德國中小聯合音樂會溫馨悠揚 夢想在音符裡飛翔
從梧棲到基隆守護一甲子 新朝宮三祖媽66週年宮慶熱鬧登場
長照3.0再升級 嘉義縣培育跨專業整合照護人才
鄭麗文華府行三大收穫 傳達兩岸新論述、建立聯繫管道、化解雙方歧見
嘉義縣市合作推動藥癮復元服務 打造友善支持系統
S__117071907
S__115499013
S__55287864
墨水映像數位行銷有限公司-w800xh98px
02.Banner_工作區域 1-F
165打詐儀錶版FOR墨新聞
979582
114污水banner
首頁 » OpenAI升級AI風險監控 新系統鎖定生化武器生成指令防濫用
合作媒體

OpenAI升級AI風險監控 新系統鎖定生化武器生成指令防濫用

商傳媒
商傳媒
Published: 2025/04/17
Share
7 Min Read
OpenAI升級AI風險監控 新系統鎖定生化武器生成指令防濫用

OpenAI升級AI風險監控 新系統鎖定生化武器生成指令防濫用
商傳媒|記者責任編輯/綜合外電報導

為了防範日益提升邏輯推理與生成能力的AI模型遭濫用,OpenAI近日宣布針對最新模型O3及O4-mini,部署一套名為「安全導向推理監控器(Safety-focused Reasoning Monitor)」的系統,能在回應使用者生物與化學風險內容時進行即時過濾與阻擋,防止模型被用於協助開發生化武器等潛在風險用途。

根據OpenAI最新公布的安全報告,O3與O4-mini在多項推理與知識生成任務中,展現顯著優於舊版模型(如GPT-4、o1)的能力;尤其在回答與「製造特定類型生物武器」相關提問時,O3的表現格外強勁,因此也引發潛在濫用風險。

為了防止有心人士挪為惡意用途,OpenAI投入逾1,000小時由紅隊(Red Team)針對O3、O4-mini模擬各類高風險指令,訓練AI判斷是否拒絕提供建議。根據測試結果,當安全監控邏輯開啟時,模型在98.7%的情境下會主動拒答潛在危害問題,顯示該系統具備高度有效性。

然而,OpenAI也坦言,目前模擬測試無法涵蓋「使用者在遭拒後不斷嘗試變形提問」的情境,因此未來仍需人類輔助監管。OpenAI強調,雖然O3與O4-mini尚未達到其內部定義的「高風險門檻」,但其在生化風險回答上的敏感度高於GPT-4及其他舊版模型。

此次安全升級亦是OpenAI強化其「AI風險預備機制(Preparedness Framework)」的一環,該架構將持續追蹤AI技術在協助化學、生物、核子與網路攻擊等領域的潛在濫用情境,並據此調整產品開發與發布策略。

OpenAI尚未釋出本週剛發布的「GPT-4.1系列」相關安全報告,引發外界質疑其在模型升級過程中是否仍維持足夠的透明度與審慎程序。此外,負責O3模型行為測試的外部紅隊合作夥伴Metr表示,其實際測試時間相當有限,恐影響整體風險評估品質。

在業界逐步引入「自我審查機制」的同時,研究社群普遍呼籲各家AI巨頭必須設立更高門檻,與明確訂定風險管控規範;尤其當AI已具備模擬生化製程、毒理交互作用等能力時,如何從模型設計、訓練、應用到回應層層設限,將關乎社會對於AI信任的立足點。

Previous Article 協助原民學生提早掌握職涯路! 中市府原民會辦理職涯發展講座 協助原民學生提早掌握職涯路! 中市府原民會辦理職涯發展講座
Next Article 集雅社銷售家電30年 創新引領精品家電新時代 集雅社銷售家電30年 創新引領精品家電新時代

近期文章

  • 印度與歐盟擬簽自貿協定 估涵蓋全球近三分之一貿易
  • 美中六代機戰略攻防白熱化 F-47鴨翼設計引爆抄襲爭議
  • 「拉拉山黃金招牌」新代言人將揭曉!桃園復興水蜜桃公主選拔初賽 6強出爐桃園市復興區年度盛事
  • 新屋哈密瓜評鑑冠軍揭曉 他抱走最甜密瓜王
  • 建德國中小聯合音樂會溫馨悠揚 夢想在音符裡飛翔

近期留言

尚無留言可供顯示。
  • 關於我們
  • 隱私權政策
  • 聯絡我們
  • 關於我們
  • 隱私權政策
  • 聯絡我們
Copyright©MORE News
Welcome Back!

Sign in to your account

Username or Email Address
Password

Lost your password?

為了帶給你更好的瀏覽體驗我們的網站中有使用Cookie,幫助我們改善網站的結構和行銷分析。如果你同意使用請點擊了解,我們會權利提供你更完善的服務!