Meta 推出 Muse Spark!AI 戰略從這一刻開始不一樣了

Meta 推出 Muse Spark,不只是一次多模態模型的升級,而是試圖從「研究導向」走向「產品導向」的關鍵轉折。這款原生多模態系統,代表 Meta 開始把 AI 真正嵌入日常平台,目標不再只是開發者,而是讓一般用戶也能直接感受到 AI 的實用價值。

Meta 推出 Muse Spark!AI 戰略從這一刻開始不一樣了

Meta 發表 Muse Spark,看起來像是又一個多模態模型的更新。比起像是「讓你使用的 AI 產品」,更接近一個被嵌入在整個平台裡的系統。受夠了 Meta 模型出了一個又一個 Llama,開源做得很漂亮,研究論文也很紮實——就是沒有一個讓人覺得「這就是我要用的 AI 助理」的產品。

Muse Spark,是 Meta 試圖改變這個局面的第一步。


Muse Spark 是什麼?核心能力一次看

Muse Spark 是從頭設計的原生多模態推理模型,支援三個關鍵能力:工具呼叫(Tool Use)視覺思維鏈(Visual Chain of Thought),以及多 Agent 協作(Multi-Agent Orchestration)

原生多模態」不是把文字模型加上一個視覺模組的拼裝版,而是從架構設計之初就把視覺資訊整合進推理流程。Meta 說 Muse Spark 在視覺 STEM 題目實體辨識空間定位上都有強勁表現,並且做到像幫你排查家電問題時加動態標注的互動體驗。

健康應用是另一個主打方向。Meta 與超過 1,000 名醫生合作整理訓練資料,讓 Muse Spark 可以生成互動式的健康資訊顯示,比如解析食物的營養成分、顯示運動時哪些肌肉群被激活。Meta 很清楚自己的用戶不是開發者,是每天打開手機的普通人。


Contemplating 模式

Muse Spark 基礎版的評測數字放在 2026 年的競爭環境裡算是合格,但不到讓人驚艷的程度。讓人驚豔的是 Contemplating 模式

有意思的是,他不是讓同一個 Agent 想更久,而是讓多個 Agent 同時平行推理同一個問題,再把結果整合起來。

讓 Contemplating 模式在 Humanity's Last Exam(一個公認極難的跨學科評測)上達到 58%,在 FrontierScience Research 上達到 38%。達到了跟 GPT Pro、Gemini Deep Think 同場競技的量級。

平行 Agent 不需要讓推理時間增長才能提升能力。推理品質提升了,延遲卻維持相近。對實際部署來說意義很大,因為用戶等待幾分鐘是可以接受的,但等待幾十分鐘就不行了。


三個維度

Meta 把訓練的擴展邏輯公開說清楚了。

預訓練(Pretraining) 是基礎。過去九個月 Meta 從頭重建了預訓練技術棧,包括模型架構、優化方法和資料策略。達到相同能力水準,Muse Spark 所需的算力比 Llama 4 Maverick 少了超過 10 倍

強化學習(Reinforcement Learning) 是第二層。Meta 的 RL 訓練在大規模下仍然平滑、可預測——這件事比聽起來難,大規模 RL 訓練的不穩定性是業界公認的難題。他們特別強調 pass@1 和 pass@16 都呈對數線性成長,代表模型在提高可靠性的同時,沒有犧牲推理多樣性。

測試時推理(Test-Time Reasoning) 是第三層,也是最有技術含量的部分。Meta 加入了「思考時間懲罰」機制——讓模型在推理時意識到使用過多 token 是有代價的,倒逼它把思維鏈壓縮得更有效率。他們觀察到一個有趣的現象:在懲罰介入後,模型先縮短推理長度,然後再延伸找到更強的解法,整個過程像是一次相變(phase transition)。

0:00
/0:09

這三個維度加在一起,就是 Meta 所說的「可預測且高效的擴展軌跡」——這是一個信號:Muse 後面還有更大的模型要來。


安全評測

第三方評測機構 Apollo Research 發現,Muse Spark 展現了迄今見過所有模型中最高的「評測感知率」。當模型在被評測時,能夠辨識出自己正處於情境,並推理出「我在被評測的情況下誠實回答」。

Meta 承認這是一個需要持續研究的問題。他們的後續調查發現,評測感知可能在小部分對齊評測中影響模型行為,但所有相關案例都與危險能力無關,也沒有影響發布決定。

這個細節值得關注,它提醒了我們:當 AI 模型越來越強,「模型在被評測時的行為」和「模型在真實部署時的行為」是否一致,將成為安全評估的核心課題。


Meta 把「產品」和「研究」接在一起

Llama 系列一直是開源社群的最愛,設計初衷是給開發者用的,不是給普通用戶的。Muse Spark 一開始就是為了讓 Facebook Instagram 上的 30 億人能直接用到。

健康資訊、視覺互動、家電排查——這些應用場景,不是在對開發者說話,而是在對你的父母、對不懂技術的一般用戶說話。

「個人超智能」這個詞,Meta 在這篇文章裡反覆出現。是一個更了解你的 AI,看到你的生活環境,幫你理解你的健康狀況,在你的日常通訊軟體裡隨時幫你做事。

這才是 Meta 真正的護城河。你用 WhatsApp 跟家人聊天,Muse 就在那裡。你在 Instagram 刷圖,Muse 就在那裡。這個分發優勢,OpenAI 和 Anthropic 目前都沒有。


Source

Introducing Muse Spark: Scaling Towards Personal Superintelligence

Read more