Claude Token 燒太快？官方 4 招 + 實測省量攻略（2026 最新）

Philo

16 Apr 2026 — 6 min read

為什麼 Claude Token 突然「燒超快」？

2026 年 3 月底開始，大批 Claude 用戶紛紛抱怨：明明沒做什麼，Token 額度就見底了。事實上，這波「用量暴增」背後同時有三個原因在作怪：

快取 Bug（Cache Bug）：Anthropic 在 2026 年 2 月確認了提示快取漏洞，導致每一輪對話都被迫重建完整 Token，消耗量膨脹 10～20 倍。
尖峰限流策略：Anthropic 調整了尖峰時段（美西時間早上 5～11 點，即台灣時間晚上 8 點～凌晨 2 點）的 5 小時 Session 消耗速度，讓同樣操作在尖峰時段更快耗光額度，約 7% 用戶受影響。
上下文滾雪球效應：Claude 每一輪對話都會重新讀取所有歷史紀錄——第 1 輪只需 2,100 tokens，到第 10 輪就可能高達 27,100 tokens，成本是指數級成長。
Anthropic 工程師 Thariq Shihipar 在 X 平台上坦承：「Claude Code 用量比預期快太多，我們正在積極調查，這是現在的第一優先。」

Anthropic 官方公布的 4 條省 Token 建議

面對用戶反彈，Anthropic 官方針對 Claude Code 的 Token 過度消耗問題，正式公布了四條省量指引：

建議 1：優先用 Sonnet 4.6，而非 Opus

Anthropic 明確指出，Opus 的消耗速度約是 Sonnet 的兩倍。在 Claude Code Pro 方案中，預設應改用 Sonnet 4.6，僅在真正需要複雜推理時才切換到 Opus。

從 API 定價來看，差距相當明顯：

模型	輸入（$/1M tokens）	輸出（$/1M tokens）	適合場景
Claude Opus 4.6	$5.00	$25.00	複雜推理、大規模重構
Claude Sonnet 4.6	$3.00	$15.00	日常開發、一般自動化
Claude Haiku 4.5	$1.00	$5.00	簡單分類、格式轉換

Sonnet 4.6 在 SWE-bench Verified 測試中拿下 79.6% 分數，而 Opus 4.6 是 80.8%——只差 1.2%，成本卻省 40%。

建議 2：調低運算強度，關閉不必要的延伸思考

Claude Code 提供「運算強度（effort level）」與「延伸思考（extended thinking）」設定。這些功能會讓模型進行更多步驟的推理，大幅增加 Token 消耗。Anthropic 建議：處理一般程式輔助或輕量任務時，請適度調低運算強度或直接關閉延伸思考。

Opus 4.6 的自適應思考支援 Low / Medium / High / Max 四個等級，讓使用者可根據任務複雜度靈活調配。

建議 3：閒置超過一小時的長對話，直接開新視窗

不要「恢復（--resume）」閒置過久的長 Session。每次恢復，系統會完整重放整個上下文，一次操作就可能消耗 $0.15 以上的額度。官方建議設定環境變數 CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000 來限制上下文窗口大小。

建議 4：善用 `/compact` 指令壓縮對話

在長 Session 進行到約 60% 時，主動使用 /compact 指令讓模型自動摘要並替換舊上下文，避免「上下文滾雪球」效應。Opus 4.6 也內建上下文壓縮（Context Compaction）功能，在對話接近上下文限制時自動摘要舊訊息。

進階省量技巧：你可以馬上用的方法

除了官方建議，以下是從社群和實測中整理出來、效果最顯著的省量策略：[15][12][10]

控制「輸入」：減少餵給 Claude 的資料量

用 .claudeignore 排除不必要的檔案：可減少 40～60% Token 消耗，是優先度最高的設定[16]
精簡 CLAUDE.md 設定檔：Anthropic 建議維持在 100 行以內，只保留最關鍵的專案規則[17]
只貼入需要的程式碼，避免一次丟整個檔案
斷開不使用的 MCP 伺服器：每個閒置 MCP 工具可能偷偷消耗高達 15,000 tokens／則訊息[15]

控制「輸出」：讓 Claude 少說廢話

很多人忽略了一個重點：Claude 的輸出也算在你的 Token 消耗裡。建議在 Prompt 前段加入這段限制指令：[14]

「直接給結果，不要前言、不要總結。使用工具後只回報結果，不描述過程。除非我主動問，否則不解釋你在做什麼。程式碼保持完整，其他回覆保持簡短。」

將指令永久存入 Project

不想每次重複貼入省 Token 的 Prompt？使用 Claude 的 Project 功能，把限制指令寫進 Project Instructions，讓規則永久生效：[14]

開啟 claude.ai，點選「+ New project」
點選「Project instructions」
貼上限制提示詞並儲存

善用 Gemini CLI 分流輕量任務

對於不需要 Claude 處理的資料蒐集、網路搜尋任務，可改用 Gemini CLI 分流。實測顯示，這個策略可減少 Claude Code 40～50% 的任務量，整體成本節省可達 50～60%。[12]

方案選擇指南：你適合哪一種？

情境	建議方案	原因
輕度使用，偶爾超量	Pro 年繳（$200/年）+ 額外用量	最低入門成本，按需補量
每天重度使用 Claude Code	Max 方案（$100/月）	最高 220,000 tokens/5 小時
團隊 5 人以上	Team Premium 年繳	$25/seat/月，可媲美 Max 方案[18]
API 開發者	Sonnet 4.6 API + Prompt Caching	Batch API 可省 50%，快取可省達 90%[19]

總結

Claude Token 暴增是 Bug、政策調整與使用習慣三者疊加的結果。Anthropic 給出的最核心建議只有一句：預設用 Sonnet 4.6，別動不動就開 Opus。 搭配控制輸出長度、定期清除上下文、將省 Token Prompt 存進 Project，多數用戶都能讓額度使用時間拉長一倍以上。

至於「文言文省 Token」——這是個好梗，不是好策略。對 Claude 這類西方模型，英文才是成本最低的選擇

Claude Token 燒太快？官方 4 招 + 實測省量攻略（2026 最新）

Philo

為什麼 Claude Token 突然「燒超快」？