Claude 的「靈魂」被偷了?Anthropic 怒控中國 AI「盜採,揭秘蒸餾攻擊如何搬運 AI 技術

Anthropic 指控中國 AI 可能透過大規模查詢與系統性方法,對 Claude 進行大規模模型蒸餾(distillation),試圖複製其能力。這波指控正值美國國會與商務部再度檢討對中國 AI 晶片出口管制之際。

Share
Claude 的「靈魂」被偷了?Anthropic 怒控中國 AI「盜採,揭秘蒸餾攻擊如何搬運 AI 技術

Anthropic 指控中國三家 AI —— DeepSeek、Moonshot AI MiniMax 透過約 24,000 個詐欺帳號與 Claude 進行超過 1,600 萬次對話,非法使用蒸餾技術(distillation)提取 Claude 能力來提升自家模型。


三大 AI 蒸餾攻擊

Anthropic 將蒸餾攻擊(distillation)描述為一種未經授權的模型能力提取方式,透過行為模式與元數據分析,以高信心將攻擊歸因:

  • DeepSeek:超過15萬次對話,針對推理能力、獎勵模型訓練、產生審查安全的替代提示。使用同步流量與負載平衡規避偵測,讓 Claude 逐步寫出內部推理,生成思維鏈訓練資料。
  • Moonshot AI:超過 340 萬次對話,針對代理推理、工具使用、程式碼、資料分析與電腦視覺。使用多樣帳號類型降低偵測難度,後期轉向提取推理軌跡。
  • MiniMax:超過 1,300 萬次對話,針對代理程式碼與工具使用。攻擊活躍期間我們發布新模型,MiniMax 24 小時內轉移近半流量捕捉最新能力。

攻擊手法統一使用「九頭蛇叢集」架構:龐大詐欺帳號網路,透過商業代理服務繞過區域限制,將蒸餾流量與正常請求混雜,無單一失敗點。


蒸餾攻擊偵測與防禦技術細節

過去一年 Anthropic 已攔截並封鎖多起疑似蒸餾攻擊,部分攻擊來源指向中國的 AI。為此,Anthropic 開發出三層防禦系統:

  • 隱形水印:在模型輸出中嵌入難以察覺但可驗證的水印,後續可追蹤是否被用於蒸餾訓練。
  • 行為指紋:監測 API 使用模式與輸出統計特徵,一旦偵測到「模仿 Claude 輸出分佈」的異常行為,即觸發警報。
  • 異常流量監控:對單一帳號或 IP 群組的超高頻呼叫、結構化提示詞與輸出重複性進行即時攔截與限流。

美中出口管制

這波指控正值美國國會與商務部重新審議對中國 AI 晶片出口管制之際,Anthropic 執行長 Dario Amodei 表示:「我們支持合理出口管制,但不能容忍模型知識被非法竊取,這損害美國 AI 創新優勢。」

Silverado Policy Accelerator 主席 Dmitri Alperovitch表示:「中國 AI 快速進步的部分原因是透過蒸餾竊取美國模型。現在我們知道這是事實,這應給我們更強烈的理由拒絕向這些公司出售任何 AI 晶片。」


模型保護將成為下一階段競爭核心

Anthropic 公開揭露三大中國 AI 蒸餾攻擊,標誌AI產業從參數競爭進入「能力竊取戰」。過去安全議題集中在 jailbreak 與 prompt injection,現在轉向「能力竊取」層面。

Anthropic 的三層防禦系統預計將成為業界標準,OpenAI、Google、Meta 等巨頭也將跟進部署類似機制。


Source

Detecting and preventing distillation attacks

Anthropic accuses Chinese AI labs of mining Claude as US debates AI chip exports

Read more

你可以外包工作,但你永遠無法外包學習

你可以外包工作,但你永遠無法外包學習

You can offload a task, or even a job, but you can never offload your learning. - Satya Nadella 前天,微軟 CEO Satya Nadella 在 X 發表了一篇長文,乍看之下很像心靈雞湯,但整段文章給了非常清晰的 AI 時代的學習框架,雖然微軟的重點是放在公司,但我看完後認為他提出的 Human Capital (人力資本) 跟 Token Capital (算力資本) 也符合我們一般人成長的邏輯。 他提到,在 AI 時代裡面必須同時建立兩種資本: Human Capital 人力資本: 你的知識、判斷力、人際關係、

lock-1