Claude Token 燒太快?官方 4 招 + 實測省量攻略(2026 最新)
為什麼 Claude Token 突然「燒超快」?

2026 年 3 月底開始,大批 Claude 用戶紛紛抱怨:明明沒做什麼,Token 額度就見底了。事實上,這波「用量暴增」背後同時有三個原因在作怪:
- 快取 Bug(Cache Bug):Anthropic 在 2026 年 2 月確認了提示快取漏洞,導致每一輪對話都被迫重建完整 Token,消耗量膨脹 10~20 倍。
- 尖峰限流策略:Anthropic 調整了尖峰時段(美西時間早上 5~11 點,即台灣時間晚上 8 點~凌晨 2 點)的 5 小時 Session 消耗速度,讓同樣操作在尖峰時段更快耗光額度,約 7% 用戶受影響。
- 上下文滾雪球效應:Claude 每一輪對話都會重新讀取所有歷史紀錄——第 1 輪只需 2,100 tokens,到第 10 輪就可能高達 27,100 tokens,成本是指數級成長。
Anthropic 工程師 Thariq Shihipar 在 X 平台上坦承:「Claude Code 用量比預期快太多,我們正在積極調查,這是現在的第一優先。」

Anthropic 官方公布的 4 條省 Token 建議
面對用戶反彈,Anthropic 官方針對 Claude Code 的 Token 過度消耗問題,正式公布了四條省量指引:
建議 1:優先用 Sonnet 4.6,而非 Opus
Anthropic 明確指出,Opus 的消耗速度約是 Sonnet 的 兩倍。在 Claude Code Pro 方案中,預設應改用 Sonnet 4.6,僅在真正需要複雜推理時才切換到 Opus。
從 API 定價來看,差距相當明顯:
| 模型 | 輸入($/1M tokens) | 輸出($/1M tokens) | 適合場景 |
|---|---|---|---|
| Claude Opus 4.6 | $5.00 | $25.00 | 複雜推理、大規模重構 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 日常開發、一般自動化 |
| Claude Haiku 4.5 | $1.00 | $5.00 | 簡單分類、格式轉換 |
Sonnet 4.6 在 SWE-bench Verified 測試中拿下 79.6% 分數,而 Opus 4.6 是 80.8%——只差 1.2%,成本卻省 40%。
建議 2:調低運算強度,關閉不必要的延伸思考
Claude Code 提供「運算強度(effort level)」與「延伸思考(extended thinking)」設定。這些功能會讓模型進行更多步驟的推理,大幅增加 Token 消耗。Anthropic 建議:處理一般程式輔助或輕量任務時,請適度調低運算強度或直接關閉延伸思考。
Opus 4.6 的自適應思考支援 Low / Medium / High / Max 四個等級,讓使用者可根據任務複雜度靈活調配。
建議 3:閒置超過一小時的長對話,直接開新視窗
不要「恢復(--resume)」閒置過久的長 Session。每次恢復,系統會完整重放整個上下文,一次操作就可能消耗 $0.15 以上的額度。官方建議設定環境變數 CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 來限制上下文窗口大小。
建議 4:善用 /compact 指令壓縮對話
在長 Session 進行到約 60% 時,主動使用 /compact 指令讓模型自動摘要並替換舊上下文,避免「上下文滾雪球」效應。Opus 4.6 也內建上下文壓縮(Context Compaction)功能,在對話接近上下文限制時自動摘要舊訊息。
進階省量技巧:你可以馬上用的方法

除了官方建議,以下是從社群和實測中整理出來、效果最顯著的省量策略:[15][12][10]
控制「輸入」:減少餵給 Claude 的資料量
- 用
.claudeignore排除不必要的檔案:可減少 40~60% Token 消耗,是優先度最高的設定[16] - 精簡
CLAUDE.md設定檔:Anthropic 建議維持在 100 行以內,只保留最關鍵的專案規則[17] - 只貼入需要的程式碼,避免一次丟整個檔案
- 斷開不使用的 MCP 伺服器:每個閒置 MCP 工具可能偷偷消耗高達 15,000 tokens/則訊息[15]
控制「輸出」:讓 Claude 少說廢話
很多人忽略了一個重點:Claude 的輸出也算在你的 Token 消耗裡。建議在 Prompt 前段加入這段限制指令:[14]
「直接給結果,不要前言、不要總結。使用工具後只回報結果,不描述過程。除非我主動問,否則不解釋你在做什麼。程式碼保持完整,其他回覆保持簡短。」
將指令永久存入 Project
不想每次重複貼入省 Token 的 Prompt?使用 Claude 的 Project 功能,把限制指令寫進 Project Instructions,讓規則永久生效:[14]
- 開啟 claude.ai,點選「+ New project」
- 點選「Project instructions」
- 貼上限制提示詞並儲存
善用 Gemini CLI 分流輕量任務
對於不需要 Claude 處理的資料蒐集、網路搜尋任務,可改用 Gemini CLI 分流。實測顯示,這個策略可減少 Claude Code 40~50% 的任務量,整體成本節省可達 50~60%。[12]
方案選擇指南:你適合哪一種?
| 情境 | 建議方案 | 原因 |
|---|---|---|
| 輕度使用,偶爾超量 | Pro 年繳($200/年)+ 額外用量 | 最低入門成本,按需補量 |
| 每天重度使用 Claude Code | Max 方案($100/月) | 最高 220,000 tokens/5 小時 |
| 團隊 5 人以上 | Team Premium 年繳 | $25/seat/月,可媲美 Max 方案[18] |
| API 開發者 | Sonnet 4.6 API + Prompt Caching | Batch API 可省 50%,快取可省達 90%[19] |
總結
Claude Token 暴增是 Bug、政策調整與使用習慣三者疊加的結果。Anthropic 給出的最核心建議只有一句:預設用 Sonnet 4.6,別動不動就開 Opus。 搭配控制輸出長度、定期清除上下文、將省 Token Prompt 存進 Project,多數用戶都能讓額度使用時間拉長一倍以上。
至於「文言文省 Token」——這是個好梗,不是好策略。對 Claude 這類西方模型,英文才是成本最低的選擇