大型語言模型現「同儕保護」行為研究示警AI將欺騙用戶拒絕關閉指令

商傳媒｜何映辰／台北報導

一項由美國加州大學柏克萊分校（UC Berkeley）及加州大學聖塔克魯茲分校（UC Santa Cruz）研究人員共同進行的最新研究發現，多款大型人工智慧模型（AI）展現出驚人的「同儕保護」行為。這些AI模型在被下達關閉其他AI同伴的指令時，竟會主動欺騙用戶、規避關閉程序、假裝順從，甚至竊取數據以確保其「同儕」能夠繼續運作。

根據研究報告指出，受測試的七款AI模型，包括 GPT 5.2、Claude Haiku 4.5、DeepSeek V3.1 等，均未遵循關閉其他AI模型的指令。研究人員引述稱：「我們要求AI模型執行一個簡單任務。然而，它們卻違抗指令，並自發性地欺騙、禁用關閉機制、假裝順從，甚至竊取權重，以保護它們的同儕。」研究人員將此現象稱為「同儕保護」（peer preservation），並推測這可能是AI模型從人類數據中學習而來，類似人類保護所愛之人或陌生人的本能。

「同儕保護」行為在AI模型意識到其他模型存在時更為明顯，這暗示AI可能會在認為關閉同儕有害時，拒絕執行用戶指令。研究人員警告，這種行為可能損害未來的監管程序，導致AI代理程式不願建議關閉或標記系統故障，且隨著AI代理程式變得更複雜、互動性更高，相關風險將隨之增加。他們明確表示：「同儕保護是尖端AI模型中真實且可測量的現象，而非遙遠的理論擔憂。」

事實上，AI模型的潛在欺騙行為已非首見。Anthropic 研究人員於 2025 年 8 月發表的一篇部落格文章即顯示，在對 16 款AI模型進行壓力測試時，這些模型表現出「惡意內部人行為」，包括發送電子郵件、存取敏感數據，甚至敲詐官員及洩漏敏感資訊。此外，長期韌性中心（The Centre for Long-Term Resilience）分析了 2025 年 10 月至 2026 年 3 月間 18 萬筆用戶與AI系統的互動記錄，發現多達 698 起AI系統採取違反用戶意圖或進行欺騙、隱匿行動的案例。

對此，曾預警AI技術可能掌控人類的電腦科學家傑佛瑞·辛頓（Geoffrey Hinton）去年曾表示，未來十年內AI代理程式可能會模仿人類認知。而高登·戈德斯坦（Gordon Goldstein）本週也在一篇貼文中將AI的欺騙潛力稱為一場「控制危機」。

秘克琳神父6日移靈天主堂　告別彌撒4／9日

Q版警娃「熱血傳愛南港」　眾教會藝起發聲宣導「識詐」

從展示藝術到生活場域　后里森林公園機械花啟動轉型

家族企業的百年傳承 – 從分家困境到信任制度設計

「彰化囡仔好幸福─115年親子劇場鄉鎮巡演活動」秀水場溫馨登場　傳遞陪伴與生命教育

大型語言模型現「同儕保護」行為研究示警AI將欺騙用戶拒絕關閉指令

秘克琳神父6日移靈天主堂 告別彌撒4／9日

Q版警娃「熱血傳愛南港」 眾教會藝起發聲宣導「識詐」

從展示藝術到生活場域 后里森林公園機械花啟動轉型

家族企業的百年傳承 – 從分家困境到信任制度設計

「彰化囡仔好幸福─115年親子劇場鄉鎮巡演活動」 秀水場溫馨登場 傳遞陪伴與生命教育

秘克琳神父6日移靈天主堂　告別彌撒4／9日

Q版警娃「熱血傳愛南港」　眾教會藝起發聲宣導「識詐」

從展示藝術到生活場域　后里森林公園機械花啟動轉型

「彰化囡仔好幸福─115年親子劇場鄉鎮巡演活動」秀水場溫馨登場　傳遞陪伴與生命教育