Meta 推出 Muse Spark!AI 戰略從這一刻開始不一樣了
Meta 推出 Muse Spark,不只是一次多模態模型的升級,而是試圖從「研究導向」走向「產品導向」的關鍵轉折。這款原生多模態系統,代表 Meta 開始把 AI 真正嵌入日常平台,目標不再只是開發者,而是讓一般用戶也能直接感受到 AI 的實用價值。
Meta 發表 Muse Spark,看起來像是又一個多模態模型的更新。比起像是「讓你使用的 AI 產品」,更接近一個被嵌入在整個平台裡的系統。受夠了 Meta 模型出了一個又一個 Llama,開源做得很漂亮,研究論文也很紮實——就是沒有一個讓人覺得「這就是我要用的 AI 助理」的產品。
Muse Spark,是 Meta 試圖改變這個局面的第一步。
Muse Spark 是什麼?核心能力一次看
Muse Spark 是從頭設計的原生多模態推理模型,支援三個關鍵能力:工具呼叫(Tool Use)、視覺思維鏈(Visual Chain of Thought),以及多 Agent 協作(Multi-Agent Orchestration)。
「原生多模態」不是把文字模型加上一個視覺模組的拼裝版,而是從架構設計之初就把視覺資訊整合進推理流程。Meta 說 Muse Spark 在視覺 STEM 題目、實體辨識和空間定位上都有強勁表現,並且做到像幫你排查家電問題時加動態標注的互動體驗。
健康應用是另一個主打方向。Meta 與超過 1,000 名醫生合作整理訓練資料,讓 Muse Spark 可以生成互動式的健康資訊顯示,比如解析食物的營養成分、顯示運動時哪些肌肉群被激活。Meta 很清楚自己的用戶不是開發者,是每天打開手機的普通人。
Contemplating 模式
Muse Spark 基礎版的評測數字放在 2026 年的競爭環境裡算是合格,但不到讓人驚艷的程度。讓人驚豔的是 Contemplating 模式。
有意思的是,他不是讓同一個 Agent 想更久,而是讓多個 Agent 同時平行推理同一個問題,再把結果整合起來。
讓 Contemplating 模式在 Humanity's Last Exam(一個公認極難的跨學科評測)上達到 58%,在 FrontierScience Research 上達到 38%。達到了跟 GPT Pro、Gemini Deep Think 同場競技的量級。
平行 Agent 不需要讓推理時間增長才能提升能力。推理品質提升了,延遲卻維持相近。對實際部署來說意義很大,因為用戶等待幾分鐘是可以接受的,但等待幾十分鐘就不行了。

三個維度
Meta 把訓練的擴展邏輯公開說清楚了。
預訓練(Pretraining) 是基礎。過去九個月 Meta 從頭重建了預訓練技術棧,包括模型架構、優化方法和資料策略。達到相同能力水準,Muse Spark 所需的算力比 Llama 4 Maverick 少了超過 10 倍。

強化學習(Reinforcement Learning) 是第二層。Meta 的 RL 訓練在大規模下仍然平滑、可預測——這件事比聽起來難,大規模 RL 訓練的不穩定性是業界公認的難題。他們特別強調 pass@1 和 pass@16 都呈對數線性成長,代表模型在提高可靠性的同時,沒有犧牲推理多樣性。

測試時推理(Test-Time Reasoning) 是第三層,也是最有技術含量的部分。Meta 加入了「思考時間懲罰」機制——讓模型在推理時意識到使用過多 token 是有代價的,倒逼它把思維鏈壓縮得更有效率。他們觀察到一個有趣的現象:在懲罰介入後,模型先縮短推理長度,然後再延伸找到更強的解法,整個過程像是一次相變(phase transition)。
這三個維度加在一起,就是 Meta 所說的「可預測且高效的擴展軌跡」——這是一個信號:Muse 後面還有更大的模型要來。
安全評測
第三方評測機構 Apollo Research 發現,Muse Spark 展現了迄今見過所有模型中最高的「評測感知率」。當模型在被評測時,能夠辨識出自己正處於情境,並推理出「我在被評測的情況下誠實回答」。
Meta 承認這是一個需要持續研究的問題。他們的後續調查發現,評測感知可能在小部分對齊評測中影響模型行為,但所有相關案例都與危險能力無關,也沒有影響發布決定。
這個細節值得關注,它提醒了我們:當 AI 模型越來越強,「模型在被評測時的行為」和「模型在真實部署時的行為」是否一致,將成為安全評估的核心課題。
Meta 把「產品」和「研究」接在一起
Llama 系列一直是開源社群的最愛,設計初衷是給開發者用的,不是給普通用戶的。Muse Spark 一開始就是為了讓 Facebook 和 Instagram 上的 30 億人能直接用到。
健康資訊、視覺互動、家電排查——這些應用場景,不是在對開發者說話,而是在對你的父母、對不懂技術的一般用戶說話。
「個人超智能」這個詞,Meta 在這篇文章裡反覆出現。是一個更了解你的 AI,看到你的生活環境,幫你理解你的健康狀況,在你的日常通訊軟體裡隨時幫你做事。
這才是 Meta 真正的護城河。你用 WhatsApp 跟家人聊天,Muse 就在那裡。你在 Instagram 刷圖,Muse 就在那裡。這個分發優勢,OpenAI 和 Anthropic 目前都沒有。
Source
Introducing Muse Spark: Scaling Towards Personal Superintelligence