Claude 的「靈魂」被偷了?Anthropic 怒控中國 AI「盜採,揭秘蒸餾攻擊如何搬運 AI 技術

Anthropic 指控中國 AI 可能透過大規模查詢與系統性方法,對 Claude 進行大規模模型蒸餾(distillation),試圖複製其能力。這波指控正值美國國會與商務部再度檢討對中國 AI 晶片出口管制之際。

Share
Claude 的「靈魂」被偷了?Anthropic 怒控中國 AI「盜採,揭秘蒸餾攻擊如何搬運 AI 技術

Anthropic 指控中國三家 AI —— DeepSeek、Moonshot AI MiniMax 透過約 24,000 個詐欺帳號與 Claude 進行超過 1,600 萬次對話,非法使用蒸餾技術(distillation)提取 Claude 能力來提升自家模型。


三大 AI 蒸餾攻擊

Anthropic 將蒸餾攻擊(distillation)描述為一種未經授權的模型能力提取方式,透過行為模式與元數據分析,以高信心將攻擊歸因:

  • DeepSeek:超過15萬次對話,針對推理能力、獎勵模型訓練、產生審查安全的替代提示。使用同步流量與負載平衡規避偵測,讓 Claude 逐步寫出內部推理,生成思維鏈訓練資料。
  • Moonshot AI:超過 340 萬次對話,針對代理推理、工具使用、程式碼、資料分析與電腦視覺。使用多樣帳號類型降低偵測難度,後期轉向提取推理軌跡。
  • MiniMax:超過 1,300 萬次對話,針對代理程式碼與工具使用。攻擊活躍期間我們發布新模型,MiniMax 24 小時內轉移近半流量捕捉最新能力。

攻擊手法統一使用「九頭蛇叢集」架構:龐大詐欺帳號網路,透過商業代理服務繞過區域限制,將蒸餾流量與正常請求混雜,無單一失敗點。


蒸餾攻擊偵測與防禦技術細節

過去一年 Anthropic 已攔截並封鎖多起疑似蒸餾攻擊,部分攻擊來源指向中國的 AI。為此,Anthropic 開發出三層防禦系統:

  • 隱形水印:在模型輸出中嵌入難以察覺但可驗證的水印,後續可追蹤是否被用於蒸餾訓練。
  • 行為指紋:監測 API 使用模式與輸出統計特徵,一旦偵測到「模仿 Claude 輸出分佈」的異常行為,即觸發警報。
  • 異常流量監控:對單一帳號或 IP 群組的超高頻呼叫、結構化提示詞與輸出重複性進行即時攔截與限流。

美中出口管制

這波指控正值美國國會與商務部重新審議對中國 AI 晶片出口管制之際,Anthropic 執行長 Dario Amodei 表示:「我們支持合理出口管制,但不能容忍模型知識被非法竊取,這損害美國 AI 創新優勢。」

Silverado Policy Accelerator 主席 Dmitri Alperovitch表示:「中國 AI 快速進步的部分原因是透過蒸餾竊取美國模型。現在我們知道這是事實,這應給我們更強烈的理由拒絕向這些公司出售任何 AI 晶片。」


模型保護將成為下一階段競爭核心

Anthropic 公開揭露三大中國 AI 蒸餾攻擊,標誌AI產業從參數競爭進入「能力竊取戰」。過去安全議題集中在 jailbreak 與 prompt injection,現在轉向「能力竊取」層面。

Anthropic 的三層防禦系統預計將成為業界標準,OpenAI、Google、Meta 等巨頭也將跟進部署類似機制。


Source

Detecting and preventing distillation attacks

Anthropic accuses Chinese AI labs of mining Claude as US debates AI chip exports

Read more

在場的各位都是 ____,Anthropic 推出最強模型 Fable 5

在場的各位都是 ____,Anthropic 推出最強模型 Fable 5

上週是我目前 Computex 生涯裡最狼狽的一次。 GTC Taipei 的前一天我生病了,結束後帶著 39 度的高燒從台北開車回林口,那應該是我這輩子開過最危險的一段車,當時真的應該直接叫 Uber 去看醫生的。也因為這樣,我的 Computex 行程全都壓在下半場。但難得來了,我決定挑戰一個自己平常根本不會碰的主題:能源、電力、資料中心。 先打個預防針:我不是電力工程師,也不是金融分析師。我只是一個每天在用 AI、偶爾分享怎麼用 AI 的人。所以這篇文章不會有很深的技術分析,但我可以告訴你我「為什麼覺得這件事值得花一個下午去聽」。 我印象很深刻的是,前年年底 Satya Nadella 接受訪談時提到,他們手裡有一堆GPU,有 RAM,有一堆準備好的硬體,但問題是資料中心根本來不及蓋好,然後也沒有電,這些硬體就單純買來放在那邊,因為沒有任何地方可以插進去。 但你知道嗎,這件事過去了一年半了,事情並沒有解決。高盛在最近的報告裡更新了他們的預測:

lock-1