AI新聞

OpenRouter 整合 xAI Grok 全創意模型完整解析：圖像、影片、語音一個 API 搞定，對開發者和創意產業意味著什麼？

OpenRouter 正在擴大自己的「AI creative stack」，從 Grok Imagine 到 Grok Voice TTS，xAI 的創意 AI 堆疊正在 OpenRouter 上集結。這讓開發者與創作者能透過單一平台存取 Grok 的強大多模態能力，顯著提升內容創作效率與創意表現。

OpenRouter 正在擴大自己的「AI creative stack」，直接把 xAI Grok 的三大創意模型上架：Grok Imagine Image Quality（寫實圖像生成與編輯）、Grok Imagine Video（短影片生成）、以及 Grok Voice TTS 1.0（多語言文字轉語音）。開發者和企業現在透過 OpenRouter 就能直接使用這些模型。

OpenRouter

OpenRouter AI 模型的「集線器」。開發者不需要分別申請 OpenAI、Anthropic、Google、xAI 的 API 帳號、管理多組 API Key、處理不同的計費系統——OpenRouter 提供一個統一入口，你用一個帳號和一個 API，就能呼叫上百個不同的模型。

對企業來說，這解決了一個真實的工程痛點：多模型架構的維護成本。

現在 OpenRouter 把 xAI 的創意模型全線整合進來，意味著一個已經在用 OpenRouter 跑 Grok 文字推理的開發者，不需要額外設定任何東西，就可以在同一個工作流程裡呼叫圖像生成、影片生成、語音轉文字——全部用同一個計費帳號。

Grok creative stack

Grok Imagine：核心引擎是 xAI 自研的 Aurora 文字轉圖像模型，支援 7 種寬高比和多種視覺風格——寫實、藝術、動漫、賽博龐克、未來感等。今年初起，文字渲染能力明顯改善，解決了 AI 圖像生成工具最常被抱怨的問題之一。
Grok Imagine Video：2026 年 2 月正式推出，支援文字轉影片和圖片轉影片，最高 720p 解析度。5 月 18 日，馬斯克在 X 上宣布 Grok 現在也能「理解和處理影片」——這代表模型不只能生成影片，還能接受影片輸入進行分析。
Grok STT：支援 25+ 語言和 12 種音訊格式，具備字詞級時間戳記、多聲道支援、說話者分離（Diarization）功能，以及 Inverse Text Normalization（將語音中的口語數字、符號還原為書面格式）。提供即時 WebSocket 串流和批次 REST 兩種模式。
Grok Voice TTS 1.0：支援 20+ 語言、5 種內建聲音（Eve、Ara、Rex、Sal、Leo），涵蓋不同語調風格。支援 Inline Speech Tags——你可以在文字裡直接插入標記，控制停頓時間、強調程度、音調高低、語速快慢和聲音風格。輸出格式支援 MP3、WAV、PCM 等，取樣率從 8 kHz 到 48 kHz。

Grok groks videos https://t.co/gY5KQrjEUr
— Elon Musk (@elonmusk) May 18, 2026

xAI 這盤棋

xAI 目前的主要商業模式是 Grok 訂閱——SuperGrok 每月 $30，SuperGrok Heavy 每月 $300。這是消費者和高端用戶市場。

但訂閱制有一個天花板：你需要說服每個用戶每個月掏錢。對企業客戶來說，訂閱制不是首選——他們想要的是按使用量計費、可以整合進自己系統的 API。

透過 OpenRouter 讓全套創意模型進入開發者生態，是 xAI 繞過訂閱門檻、直接觸達企業端的最快路徑。而且 OpenRouter 的分發效率極高——已有大量企業開發者在上面跑各種工作流程，xAI 不需要從零建立銷售管道。

這個邏輯，和 Mistral 把 Voxtral TTS 放上 Hugging Face 開放下載、Anthropic 推 Claude for Creative Work 接入創意工具是一樣的——降低進入門檻，讓開發者在他們熟悉的環境裡先用起來，再談長期合約和企業版本。

xAI 去年估值達到 500 億美元，馬斯克自稱 xAI 是「成長最快的 AI 公司」。但對投資人來說，真正重要的不是估值，而是 ARR（年化經常性收益）能不能跟上。企業 API 市場，才是 ARR 最穩定的來源。

誰的護城河正在被壓縮

這次整合讓幾個現有玩家的定價優勢直接受壓：

ElevenLabs：語音合成市場的現任標準，每百萬字元定價通常在 $22 至 $99 之間，視方案和品質而定。Grok Voice TTS 的 $15 定價，以及 Grok STT 的錯誤率表現，讓 ElevenLabs 的企業客戶有了重新評估的理由。就在上個月 Mistral 也推出了 Voxtral TTS 直接挑戰 ElevenLabs。

Runway / Pika：AI 影片生成的主要競爭者。Runway Gen-3 的定價明顯高於 Grok Imagine Video，且 Grok 的批次 API 對高頻生產場景更友好。

Midjourney：圖像生成市場的品牌溢價一直撐得很穩，但 Grok $0.02／張的定價對任何需要大量生成圖像的企業工作流程來說，都是一個很難忽視的數字差距。

ElevenLabs 的產品生態成熟度、Midjourney 的風格辨識度、Runway 在創意產業的品牌認知是 xAI 短期內無法用價格完全替代的東西。