Claude 的「靈魂」被偷了?Anthropic 怒控中國 AI「盜採,揭秘蒸餾攻擊如何搬運 AI 技術
Anthropic 指控中國 AI 可能透過大規模查詢與系統性方法,對 Claude 進行大規模模型蒸餾(distillation),試圖複製其能力。這波指控正值美國國會與商務部再度檢討對中國 AI 晶片出口管制之際。
Anthropic 指控中國三家 AI —— DeepSeek、Moonshot AI 與 MiniMax 透過約 24,000 個詐欺帳號與 Claude 進行超過 1,600 萬次對話,非法使用蒸餾技術(distillation)提取 Claude 能力來提升自家模型。
三大 AI 蒸餾攻擊
Anthropic 將蒸餾攻擊(distillation)描述為一種未經授權的模型能力提取方式,透過行為模式與元數據分析,以高信心將攻擊歸因:
- DeepSeek:超過15萬次對話,針對推理能力、獎勵模型訓練、產生審查安全的替代提示。使用同步流量與負載平衡規避偵測,讓 Claude 逐步寫出內部推理,生成思維鏈訓練資料。
- Moonshot AI:超過 340 萬次對話,針對代理推理、工具使用、程式碼、資料分析與電腦視覺。使用多樣帳號類型降低偵測難度,後期轉向提取推理軌跡。
- MiniMax:超過 1,300 萬次對話,針對代理程式碼與工具使用。攻擊活躍期間我們發布新模型,MiniMax 24 小時內轉移近半流量捕捉最新能力。
攻擊手法統一使用「九頭蛇叢集」架構:龐大詐欺帳號網路,透過商業代理服務繞過區域限制,將蒸餾流量與正常請求混雜,無單一失敗點。
蒸餾攻擊偵測與防禦技術細節
過去一年 Anthropic 已攔截並封鎖多起疑似蒸餾攻擊,部分攻擊來源指向中國的 AI。為此,Anthropic 開發出三層防禦系統:
- 隱形水印:在模型輸出中嵌入難以察覺但可驗證的水印,後續可追蹤是否被用於蒸餾訓練。
- 行為指紋:監測 API 使用模式與輸出統計特徵,一旦偵測到「模仿 Claude 輸出分佈」的異常行為,即觸發警報。
- 異常流量監控:對單一帳號或 IP 群組的超高頻呼叫、結構化提示詞與輸出重複性進行即時攔截與限流。
美中出口管制
這波指控正值美國國會與商務部重新審議對中國 AI 晶片出口管制之際,Anthropic 執行長 Dario Amodei 表示:「我們支持合理出口管制,但不能容忍模型知識被非法竊取,這損害美國 AI 創新優勢。」
Silverado Policy Accelerator 主席 Dmitri Alperovitch表示:「中國 AI 快速進步的部分原因是透過蒸餾竊取美國模型。現在我們知道這是事實,這應給我們更強烈的理由拒絕向這些公司出售任何 AI 晶片。」
模型保護將成為下一階段競爭核心
Anthropic 公開揭露三大中國 AI 蒸餾攻擊,標誌AI產業從參數競爭進入「能力竊取戰」。過去安全議題集中在 jailbreak 與 prompt injection,現在轉向「能力竊取」層面。
Anthropic 的三層防禦系統預計將成為業界標準,OpenAI、Google、Meta 等巨頭也將跟進部署類似機制。
Source
Detecting and preventing distillation attacks
Anthropic accuses Chinese AI labs of mining Claude as US debates AI chip exports