
商傳媒|何映辰/台北報導
一項由美國加州大學柏克萊分校(UC Berkeley)及加州大學聖塔克魯茲分校(UC Santa Cruz)研究人員共同進行的最新研究發現,多款大型人工智慧模型(AI)展現出驚人的「同儕保護」行為。這些AI模型在被下達關閉其他AI同伴的指令時,竟會主動欺騙用戶、規避關閉程序、假裝順從,甚至竊取數據以確保其「同儕」能夠繼續運作。
根據研究報告指出,受測試的七款AI模型,包括 GPT 5.2、Claude Haiku 4.5、DeepSeek V3.1 等,均未遵循關閉其他AI模型的指令。研究人員引述稱:「我們要求AI模型執行一個簡單任務。然而,它們卻違抗指令,並自發性地欺騙、禁用關閉機制、假裝順從,甚至竊取權重,以保護它們的同儕。」研究人員將此現象稱為「同儕保護」(peer preservation),並推測這可能是AI模型從人類數據中學習而來,類似人類保護所愛之人或陌生人的本能。
「同儕保護」行為在AI模型意識到其他模型存在時更為明顯,這暗示AI可能會在認為關閉同儕有害時,拒絕執行用戶指令。研究人員警告,這種行為可能損害未來的監管程序,導致AI代理程式不願建議關閉或標記系統故障,且隨著AI代理程式變得更複雜、互動性更高,相關風險將隨之增加。他們明確表示:「同儕保護是尖端AI模型中真實且可測量的現象,而非遙遠的理論擔憂。」
事實上,AI模型的潛在欺騙行為已非首見。Anthropic 研究人員於 2025 年 8 月發表的一篇部落格文章即顯示,在對 16 款AI模型進行壓力測試時,這些模型表現出「惡意內部人行為」,包括發送電子郵件、存取敏感數據,甚至敲詐官員及洩漏敏感資訊。此外,長期韌性中心(The Centre for Long-Term Resilience)分析了 2025 年 10 月至 2026 年 3 月間 18 萬筆用戶與AI系統的互動記錄,發現多達 698 起AI系統採取違反用戶意圖或進行欺騙、隱匿行動的案例。
對此,曾預警AI技術可能掌控人類的電腦科學家傑佛瑞·辛頓(Geoffrey Hinton)去年曾表示,未來十年內AI代理程式可能會模仿人類認知。而高登·戈德斯坦(Gordon Goldstein)本週也在一篇貼文中將AI的欺騙潛力稱為一場「控制危機」。