Anthropic 發布史上最強模型 Claude Mythos——但因能力過強,決定不對外公開

Anthropic 發布史上最強 AI 模型 Claude Mythos Preview,但同時宣布不對外公開——因為它在測試期間自主找出數千個零日漏洞,最老的已潛伏 27 年。為此 Anthropic 啟動 Project Glasswing,聯合 11 家科技巨頭搶先修補,提供 1 億美元資源支援全球資安防線。

Anthropic 發布史上最強模型 Claude Mythos——但因能力過強,決定不對外公開

Anthropic 在 4 月 7 日宣布一件在 AI 史上幾乎前所未有的事:他們建出了一個太強大的模型,強到不敢讓任何人使用。這款代號 Claude Mythos Preview 的新前沿模型,在測試期間已自主找出每一套主流作業系統與每一款主流瀏覽器中「數千個」從未被發現的零日漏洞——其中有些漏洞在程式碼裡存在了 17 至 27 年,從未被人類研究員察覺。Anthropic 因此決定先不公開發布,改以「Project Glasswing」計畫的形式,讓全球最頂尖的科技公司搶先修補漏洞,在攻擊者取得相同能力之前建立防線。


Claude Mythos Preview 是什麼?

Claude Mythos Preview 是指 Anthropic 目前最強大的通用前沿模型,主要設計目標為強化程式碼理解與 AI Agent 自主任務能力,並非針對資安專門訓練的工具。根據 Anthropic 官方說明,Mythos 的資安能力是「通用編碼與推理能力提升後的附帶結果」——換句話說,一個能深度理解並修改複雜軟體的模型,自然也就能找到並利用軟體的弱點。

這是區分 Claude Mythos 與過去所有 AI 模型的核心差距。過去的 AI 頂多能協助資安研究員「分析」已知漏洞,而 Mythos 展現的是全程自主運作的能力:無需人類引導,自行識別漏洞、撰寫利用程式碼(exploit)、將多個漏洞串聯成複合攻擊鏈,一氣呵成。

根據 Anthropic 旗下紅隊(Frontier Red Team)在 技術報告 中揭露的一個案例,Mythos 完全自主地識別並利用了 FreeBSD 中一個存在 17 年的遠端程式碼執行漏洞(CVE-2026-4747),任何人只要在網路上找到一台執行 NFS 的 FreeBSD 伺服器,就能取得完整的系統控制權。整個過程「沒有任何人類介入」。


Project Glasswing:讓防守方搶先一步

Anthropic 因此決定以 Project Glasswing 計畫取代一般性的公開發布。這是一項緊急的跨產業防禦協作計畫,核心邏輯是:在攻擊者取得相同等級的 AI 模型能力之前,讓守方先把漏洞補好。

根據 TechCrunch 報導,計畫目前有 11 家外部核心夥伴,包含 Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux Foundation、Microsoft、NVIDIA 和 Palo Alto Networks,另有超過 40 家組織獲得擴展存取資格。這些公司都是全球最關鍵的數位基礎設施的建造者與維護者。

Anthropic 承諾提供:

  • 高達 1 億美元的模型使用額度,供 Project Glasswing 參與者使用
  • 額外 400 萬美元直接捐款給開源資安組織
  • Claude Mythos Preview 透過 Claude API、Amazon Bedrock、Google Cloud Vertex AI 及 Microsoft Foundry 提供存取,定價為每百萬輸入 / 輸出 token 各 25 / 125 美元

這是近 7 年來,頂尖 AI 公司首次因安全顧慮主動限制模型公開發布。上一次是 2019 年,OpenAI 以「可能被濫用於生成虛假資訊」為由,暫緩公開 GPT-2 的完整版本。


Mythos 究竟發現了什麼?

Anthropic 在技術報告中透露了部分已修補漏洞的細節,但表示超過 99% 的發現尚未修補,因此無法公開揭露。已公開的案例包括:

一個存在 27 年的 OpenBSD 漏洞——Mythos 發現只需向任何一台 OpenBSD 伺服器發送幾筆特定資料,就能讓伺服器當機。一個 FreeBSD 的遠端執行漏洞,讓外部攻擊者在未登入的情況下取得伺服器 root 權限。此外,Mythos 還示範了如何串聯四個不同瀏覽器漏洞,寫出一段 JIT heap spray 程式碼,同時突破渲染器沙盒與作業系統沙盒,實現完整的本機提權。

根據 NBC News 採訪報導,Anthropic Frontier Red Team 成員 Logan Graham 指出,讓他印象最深刻的並非模型找到漏洞的能力本身,而是它的長程串聯推理:模型能自行推斷多個單獨看來無害的漏洞組合在一起能夠達成什麼效果,並一步步加以執行。這種自主串聯能力,已超出所有現有自動化資安工具的範疇。


科技業各方的反應

角色 評語
Cisco 資安長 Anthony Grieco 「AI 能力已跨越門檻,舊有的系統強化方式不再足夠」
CrowdStrike 技術長 Elia Zaitsev 「漏洞被發現到被利用的時間窗口已從數月縮短至數分鐘」
Linux Foundation CEO Jim Zemlin 「開源維護者第一次有機會取得和大型企業同等的資安工具」
資安公司 Corridor CPO Alex Stamos 「我們大約只有六個月時間,在開源模型追上來之前完成修補」
Luta Security CEO Katie Moussouris 「這非常真實。我們將看到重大後果。」

資料來源:Anthropic 官方Platformer


這件事為什麼重要?

這不只是一則 AI 公司發布新模型的新聞。它代表的是一個臨界點:AI 的能力已達到某個層次,讓研發它的公司不得不在「發布」與「限制」之間做出嚴肅的安全判斷,而不是把這個判斷留給市場。

從 AI 被用於協助國家駭客行動(Anthropic 在 2025 年阻止的 GTG-1002 事件),到 Claude Code 原始碼外洩意外曝光 44 個未公開功能,AI 與資安的交叉風險一直在升溫。Mythos 的發現,讓這個風險首次以「無可迴避」的形式,直接呈現在整個產業面前。

資安公司 Corridor 的 Alex Stamos 在接受媒體訪問時估計,如果不採取緊急行動,開源模型大約在六個月後就會具備類似能力,到時任何人都能用它掃描並武器化漏洞,而執法機構幾乎無從追蹤。

Project Glasswing 的名稱取自玻璃翼蝶(Glasswing butterfly)——一種翅膀幾乎透明、讓天敵難以察覺的昆蟲。Anthropic 以此比喻軟體漏洞:它們就像透明的翅膀一樣幾乎隱形,但當 AI 的眼睛足夠銳利,就再也無所遁形。


想每週掌握最新 AI 工具與趨勢?訂閱 AI 郵報,每週精選重點直送信箱,讓你不錯過任何重要動態。


資料來源

Read more