SubQ

Subquadratic 發表 SubQ：1200 萬 Token 長上下文模型，挑戰 Transformer 成本瓶頸

AI 新創 Subquadratic 推出 SubQ，宣稱以全次平方稀疏注意力架構支援 1200 萬 token 長上下文，並募得 2900 萬美元種子輪資金，瞄準 coding agent、企業知識庫與長期 AI agent 工作流。

AI 新創公司 Subquadratic 正式推出長上下文大型語言模型 SubQ，主打 1200 萬 token reasoning、稀疏注意力架構與更低推理成本。這家公司同時宣布已募得 2900 萬美元種子輪資金，試圖切入目前 AI agent、程式碼理解與企業知識庫面臨的最大痛點：模型看得不夠多，或者看得越多就越貴。

SubQ 是什麼？

SubQ 是 Subquadratic 發表的長上下文 LLM。官方宣稱，SubQ 採用 fully sub-quadratic sparse-attention architecture，能在 1200 萬 token 規模下進行推理，讓 AI agent 一次處理完整程式碼庫、數月 pull request、長期互動歷史與持久狀態。

Subquadratic 核心規格包括：

1200 萬 token reasoning
150 tokens per second
成本約為其他領先 LLM 的五分之一
12M token 下 attention compute 減少近 1000 倍
API 支援 streaming、tool use 與 OpenAI-compatible endpoints

Introducing SubQ - a major breakthrough in LLM intelligence.

It is the first model built on a fully sub-quadratic sparse-attention architecture (SSA),

And the first frontier model with a 12 million token context window which is:

- 52x faster than FlashAttention at 1MM tokens
-… pic.twitter.com/eZL0VOqBB4
— Alexander Whedon (@alex_whedon) May 5, 2026

為什麼 Transformer 長上下文很貴？

傳統 Transformer 的 self-attention 會比較每個 token 與其他 token 的關係，因此上下文越長，計算量會呈平方成長，也就是常見的 O(n²) 問題。當輸入從 128K token 擴大到 1M token，甚至 12M token 時，推理成本與延遲會快速上升。

這也是為什麼許多企業 AI 系統仍依賴 RAG、chunking、摘要記憶與多階段 agent workflow。這些方法能降低模型一次要看的內容，但也會帶來資訊遺失、檢索偏差與工程複雜度。

SubQ 的主張是：與其把問題交給外部檢索與 prompt 工程，不如讓模型本身能以更低成本處理完整上下文。

Alex Whedon：SubQ 是 LLM 智慧的重大突破

Subquadratic 共同創辦人兼 CTO Alex Whedon 在 X 上表示，SubQ 是 LLM intelligence 的重大突破，並稱它是第一個基於 fully sub-quadratic sparse-attention architecture 的前沿模型。

他也提到，SubQ 具備 1200 萬 token context window，在 100 萬 token 情境下比 FlashAttention 快 52 倍，且成本低於 Opus 的 5%。這些說法與 SubQ 官方網站的定位一致：SubQ 的核心賣點不是聊天能力，而是超長上下文推理的速度與經濟性。

募資 2900 萬美元，鎖定企業與開發者市場

Subquadratic 已完成 2900 萬美元種子輪募資，投資人包括前 SoftBank Vision Fund 合夥人 Javier Villamizar、Tinder 共同創辦人 Justin Mateen，以及 Anthropic、OpenAI、Stripe、Brex 的早期投資人。

Subquadratic CEO Justin Dangel 在訪談中表示，公司重點在於把 dense attention 的 quadratic scaling 架構轉向 sparse attention 的 linear architecture。CTO Alex Whedon 則指出，若輸入長度加倍，傳統 quadratic scaling 需要約四倍計算量；但 linear scaling 只需要約兩倍。

這也是 SubQ 商業敘事的核心：長上下文不是單純模型規格，而是 AI 應用能否大規模部署的成本問題。

SubQ 的三個產品方向

Subquadratic 目前將 SubQ 包裝成三種產品進入 private beta。

第一是 SubQ API，面向開發者與企業團隊，主打單次 API call 處理完整 repo、pipeline state 或大型文件集，並提供 OpenAI-compatible endpoints。

第二是 SubQ Code，這是一個面向 coding agent 的命令列工具，可接入 Claude Code、Codex 與 Cursor，用於快速 map codebase、蒐集上下文與回答大量 token 的程式碼問題。官方宣稱可降低約 25% 帳單，並讓探索速度提升 10 倍。

第三是 SubQ Search，定位為長上下文搜尋與 Deep Research 工具，目標是在接近聊天機器人的速度下處理大型資料與研究任務。

Benchmark：官方數據亮眼，但仍需獨立驗證

Subquadratic 公布的 benchmark 顯示，SubQ 1M-Preview 在 RULER @ 128K 測試達到 95.0%，MRCR v2 8-needle 1M 測試為 65.9%，SWE-Bench Verified 為 81.8%。官方也表示 SubQ 結果經第三方驗證。

Subquadratic 稱 SubQ 在 RULER 128K benchmark 上以約 8 美元成本達到 95% accuracy，而 Claude Opus 約為 2600 美元、accuracy 約 94%。若這項成本差距能被獨立重現，會是長上下文推理市場的重要訊號。

不過，SubQ 技術報告目前仍未完整公開，外部研究者尚無法全面檢視架構細節、測試條件與真實應用表現。因此現階段更精準的說法是：SubQ 提出了非常激進的長上下文成本主張，但仍等待公開技術報告與第三方 benchmark 進一步驗證。

產業意義：AI Agent 的瓶頸可能從模型能力轉向記憶成本

SubQ 的發表切中當前 AI agent 的核心問題。許多代理系統不是不能推理，而是無法穩定記住完整背景。開發者必須不斷設計檢索、摘要、壓縮、上下文排序與工具調用策略，才能讓模型在有限 context window 中做出可用決策。

如果 1200 萬 token 長上下文能以可接受成本運作，AI agent 的設計方式可能會改變。完整 codebase、完整文件庫、長期任務紀錄與多日工作狀態，都有機會被放入單一推理環境中。這會降低 RAG 與多代理協調的需求，也可能讓 coding agent、企業知識管理與長流程自動化更接近產品化。

仍要保持觀察的風險

SubQ 的敘事很有吸引力，但 AI 產業過去也出現過許多 subquadratic attention、linear attention、state space model 與 sparse attention 方案。這些方法常見挑戰是：理論上更省計算，但在 frontier-level 任務、複雜推理與泛化能力上不一定能維持同等品質。

因此，SubQ 接下來最重要的觀察點包括：技術報告是否公開、API 價格是否真的具備成本優勢、12M token 長上下文是否能在真實企業資料中穩定運作，以及第三方測試是否能重現官方 benchmark。

參考來源：SubQ 官方網站、Subquadratic 官方發表文章、SiliconANGLE 報導、Alex Whedon X 貼文