科技媒體《TechCrunch》報導指出,儘管OpenAI正加速強化旗下AI瀏覽器ChatGPT Atlas的資安防線,但近日坦言「Prompt Injection(提示注入攻擊)」將是長期難解的AI風險難題,猶如網路詐騙與社交工程(Social Engineering)般難以完全根絕,這也引發外界對AI代理人是否能安全操作開放網路的質疑。
OpenAI透過官方部落格表示:「Prompt Injection 很可能永遠無法『完全解決』。」尤其Atlas的「Agent Mode」(代理人模式)雖然功能強大,卻也擴大潛在的資安攻擊面。
Atlas瀏覽器自10月推出以來,資安研究人員紛紛展示如何透過Google文件或電子郵件中的文字指令,偷偷改變AI行為。軟體公司Brave與英國國家網路安全中心(NCSC)也先後警告:Prompt Injection可能成為AI瀏覽器的系統性風險,應以風險管理思維減災而非幻想「封殺」。
打造「AI紅隊」:OpenAI訓練自己的攻擊者找破口
OpenAI採取不同於Google與Anthropic的策略,在傳統資安強化架構外,自行訓練出一個具備「攻擊者視角」的LLM代理人。這個強化學習訓練出的AI攻擊者可在模擬環境中不斷嘗試Prompt Injection技巧,觀察目標AI的反應並調整策略。
OpenAI指出:「我們的AI攻擊者可以引導目標代理人執行數十甚至上百步驟的複雜攻擊流程,模擬出人類紅隊未曾發現的創新攻擊樣態。」
在一次示範中,攻擊者透過一封「藏有隱性指令的電子郵件」,成功誘使代理人錯誤地發出離職信,而非使用者原本要求的「外出通知」;但經過新版資安更新後,代理人成功識別並攔截這一指令注入行為,並主動提醒使用者。
AI安全的核心難題:授權範圍×自主行為
資安公司Wiz的首席研究員Rami McCarthy指出,Prompt Injection難防的關鍵在於「AI的自主性乘上其接觸權限」決定了風險高低;而像Atlas這類瀏覽器代理人,恰恰屬於「中等自主性+極高存取權」的高風險區間。OpenAI建議使用者降低授權範圍,例如:
- 不授權代理人全權處理信箱,而是明確指令工作範圍
- 要求代理人在發送郵件或付款前,取得用戶確認
- 限制登入狀態與存取範圍,減少敏感資訊曝光風險
不過OpenAI拒絕透露此次安全更新後,Prompt Injection實際成功率是否明顯下降;OpenAI僅表示,從開發前即與第三方資安專家合作,持續壓力測試並快速修補潛在漏洞。
市場觀察:AI瀏覽器是否值得風險?
Rami McCarthy提醒:「就目前一般用戶來說,Agentic瀏覽器的實際價值,恐怕仍不足以支撐它的風險輪廓。」即使這些工具因可存取信箱、支付資訊而具備強大能力,但也意味一旦中招,風險跟代價極高。Rami McCarthy認為,未來這種風險與價值的平衡將會演化,但現階段仍需謹慎看待。
OpenAI強調,Prompt Injection已成為AI安全長期戰役,未來將持續擴大模擬攻擊範圍、強化防禦節點,並鼓勵使用者培養「AI風險意識」。
