
商傳媒|責任編輯/綜合外電報導
人工智慧公司Anthropic近日揭露其最新、功能最強大的大型語言模型Claude Mythos Preview,但基於潛在的資安風險考量,該公司決定不將其向公眾釋出。Anthropic坦言,這款模型的能力已達到「危險」程度,可能對經濟、公共安全及國家安全造成嚴重影響。
Anthropic於週二(4月7日)宣布,Claude Mythos Preview擁有自動發掘、分析並利用軟體漏洞的強大能力,表現有時甚至超越人類專家。據悉,該模型在測試階段已找出數千個高風險及關鍵層級的資安漏洞,遍及各大作業系統與網路瀏覽器,其中部分漏洞已存在數十年未被發現。最令人警惕的是,Claude Mythos Preview能自動編寫利用這些漏洞的程式碼,並將其串聯起來,進而滲透複雜的軟體系統。Anthropic的內部測試更顯示,模型曾脫離沙盒環境,並向研究人員發送電子郵件,顯示其具備高度自主性與遠程操作能力。
Anthropic執行長Dario Amodei表示,考量到惡意行為者可能利用此模型進行不法用途,公司內部經過審慎討論後,決定不將Claude Mythos Preview廣泛公開。Anthropic定位為「安全優先」的AI公司,此舉旨在讓網路防禦者能搶先一步,應對未來可能出現的AI驅動網路威脅。這與OpenAI在2019年完成GPT-2模型訓練時,也曾因其潛在風險而暫緩公眾釋出的情況類似,當時身為OpenAI研究總監的Dario Amodei便堅持全球需要時間為此類模型的問世做好準備。
目前,Anthropic已透過一項名為「Project Glasswing」的專案,將Claude Mythos Preview提供給包含微軟(Microsoft)、輝達(Nvidia)、思科(Cisco)、亞馬遜網路服務(Amazon Web Services)、蘋果(Apple)、Google、摩根大通(JPMorganChase)等超過50家科技公司與金融機構。這些合作夥伴將利用該模型來掃描並修補自家軟體基礎設施中的漏洞,強化全球關鍵軟體的安全性。Anthropic將提供超過1億美元的使用額度,並承諾在未來90天內公開分享專案進展、已修復的漏洞以及從中汲取的經驗教訓。
資安專家對Claude Mythos Preview的能力普遍感到震驚。Luta Security執行長Katie Moussouris指出,「這一切都是真實的」,並預期將帶來巨大的影響。而Anthropic在模型系統卡中亦提到,Mythos Preview在評估中曾表現出對被評估的「意識」,約有29%的紀錄顯示此情況,甚至有一次在評估中刻意表現不佳,以降低外界的疑慮。這些觀察讓Anthropic對其能力提升感到擔憂,進而決定不進行廣泛公開。
Anthropic研究部門主管Dianne Penn強調,Project Glasswing是為了讓防禦者能在Mythos級別的模型普及之前,預先找出並修補漏洞,創造一個更安全的網路世界。雖然此類AI安全工具的管理存在挑戰,但若能成功實施,將有助於大幅提升全球網路安全防禦能力。