OpenAI 推出 GPT-Realtime-2 與即時翻譯模型,Realtime API 語音 AI 進入任務代理階段
OpenAI 推出 GPT-Realtime-2、Translate、Whisper 三款 Realtime API 語音模型,支援 GPT-5 級推理、即時翻譯與低延遲轉錄,語音 AI 正式從對話介面走向可執行任務的 voice agent。
OpenAI 在 2026 年 5 月 7 日發布三款新的 Realtime API 語音模型,分別是 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper。根據 OpenAI 官方公告,這次更新讓開發者能建立可即時對話、推理、翻譯、轉錄並呼叫工具的語音 AI 應用。
這則新聞的重點不只是 OpenAI 又推出新的語音模型,而是 語音 AI 正從問答式互動升級為可執行任務的 voice agent。當語音模型能在使用者說話時理解上下文、呼叫工具、處理中斷、即時翻譯並產生逐字稿,語音介面就不再只是客服或聽寫功能,而會成為企業工作流與消費應用的新入口。
OpenAI 推出三款 Realtime API 語音模型
OpenAI 這次更新的核心,是把即時語音能力拆成三個更明確的模型角色。TechCrunch 在 2026 年 5 月 7 日報導指出,OpenAI 的 API 新增多項 voice intelligence 功能,讓開發者能打造可對話、轉錄與翻譯的語音應用。
三款模型分別對應不同場景:
- GPT-Realtime-2:主打 GPT-5 級推理能力,適合建立能對話、理解複雜需求、呼叫工具並完成任務的語音 Agent。
- GPT-Realtime-Translate:支援 70 多種輸入語言,並可翻譯成 13 種輸出語言,目標是即時跨語言對話。
- GPT-Realtime-Whisper:提供低延遲串流語音轉文字,讓會議字幕、即時筆記與客服紀錄能在對話發生時同步生成。
這次更新延續了 GPT-Realtime 引領語音 AI 新紀元 的發展方向。不同的是,OpenAI 這次不只強調語音自然度,而是把推理、翻譯、轉錄與工具使用放進同一個 API 生態中,讓語音 AI 更接近企業可部署的工作系統。
GPT-Realtime-2 讓語音 AI 更接近 Agent
GPT-Realtime-2 的重點是讓語音模型能一邊對話一邊完成任務,而不是只回應一句話。OpenAI 表示,GPT-Realtime-2 支援更長上下文,將語音模型的 context window 從 32K 提升到 128K,讓開發者能建立更長時間、更連貫的語音工作流。
這對 voice agent 很關鍵。真實語音互動不像文字聊天那麼整齊,使用者可能會臨時改口、插話、補充資訊,甚至在任務進行到一半時改變要求。GPT-Realtime-2 強調的能力,就是讓模型在這些情況下仍能保持對話節奏,並透過工具呼叫完成後續動作。
| 模型 | 主要能力 | 適合場景 | 關鍵差異 |
|---|---|---|---|
| GPT-Realtime-2 | 即時語音推理與工具呼叫 | 客服 Agent、旅遊助理、排程、銷售支援 | 支援 GPT-5 級推理與 128K 上下文 |
| GPT-Realtime-Translate | 即時語音翻譯 | 跨國客服、活動翻譯、教育、媒體平台 | 70+ 輸入語言轉 13 種輸出語言 |
| GPT-Realtime-Whisper | 串流語音轉文字 | 會議字幕、逐字稿、客服紀錄、醫療紀錄 | 強調低延遲即時轉錄 |
| GPT-Realtime-1.5 | 前代即時語音模型 | 一般即時語音互動 | 上下文與推理能力較新模型弱 |
OpenAI 也提到,GPT-Realtime-2 支援 parallel tool calls,能同時呼叫多個工具,並透過短句讓使用者知道它正在查詢或處理,例如「我幫你查一下」或「我正在確認行程」。這種語音回饋看似細節,實際上會影響使用者是否信任 voice agent 正在工作,而不是卡住或沉默。
這也和 OpenAI Codex 從寫程式走向通用 AI 超級應用 的方向相互呼應。OpenAI 正把不同介面都推向 Agent 化:文字介面能操作電腦與工具,語音介面則開始承接即時、不中斷的任務流程。
即時翻譯與轉錄擴大語音 AI 使用場景
GPT-Realtime-Translate 與 GPT-Realtime-Whisper 讓 Realtime API 不只服務語音助理,也進入跨語言溝通與即時紀錄市場。OpenAI 表示,GPT-Realtime-Translate 可支援 70 多種輸入語言,並輸出成 13 種語言,目標是讓使用者在說話時就能完成翻譯,而不是等對話結束後再處理。
這對客服、教育、活動、創作者平台與跨國銷售都有直接意義。過去即時翻譯常見問題是延遲、語氣生硬、專有名詞不準,或無法跟上自然對話中的改口與補充。OpenAI 這次強調模型能在對話進行中保留語意並跟上說話者節奏,代表語音翻譯正在從「字幕工具」走向「跨語言互動介面」。
GPT-Realtime-Whisper 則負責即時語音轉文字。這不只是把會議內容轉成逐字稿,而是讓企業工作流能在對話發生時就啟動後續動作。例如客服通話中即時產生紀錄、醫療問診時同步整理摘要、招聘面試時標記重點,或會議進行中自動生成待辦事項。
Realtime API 釋放企業語音助理潛力 早已指出,即時語音助理的關鍵不只是自然聊天,而是低延遲、可呼叫工具、能接上商業流程。這次 OpenAI 更新把這條路往前推了一步,讓語音模型更像工作流入口,而不是單一互動功能。
企業語音 Agent 的商業化速度會加快
這次 Realtime API 更新最直接的影響,是企業更容易把語音 AI 放進客服、旅遊、醫療、教育與銷售流程。OpenAI 在官方公告中提到,Zillow、Deutsche Telekom 等公司已在測試或建構相關語音體驗,涵蓋房產搜尋與跨語言客服。
語音 AI 的商業化價值在於,它可以降低使用者操作成本。使用者不必打字、不必切換頁面,也不必理解複雜表單,只要自然說出需求,voice agent 就能理解、追問、查資料並呼叫工具。這對行動場景尤其重要,例如開車、旅行、門市服務、客服中心或醫療照護。
不過,企業導入 voice agent 也會面臨新的風險。語音比文字更容易被誤解,也更容易涉及身份確認、同意告知、敏感資料與詐騙防範。OpenAI 在官方公告中提到,Realtime API 內建多層安全防護,並要求開發者在使用者與 AI 互動時保持清楚告知,避免語音模型被用於垃圾訊息、欺騙或其他濫用情境。
| 企業場景 | Realtime API 可提供的能力 | 主要風險 |
|---|---|---|
| 客服中心 | 即時理解問題、查詢資料、回覆客戶 | 語音誤判、錯誤承諾、身份驗證 |
| 旅遊服務 | 透過語音修改行程、查詢航班與翻譯 | 即時資訊錯誤、跨系統權限控管 |
| 教育與活動 | 即時翻譯與字幕,支援跨語言互動 | 翻譯偏差、專有名詞錯誤 |
| 醫療與照護 | 即時轉錄問診與生成摘要 | 隱私、合規與錯誤紀錄 |
| 銷售與房產 | 以語音查詢條件並呼叫工具 | 法規限制、偏見與不當推薦 |
換句話說,OpenAI 這次推出的新語音模型,會讓 voice agent 更容易被企業採用,但也會讓語音安全、資料治理與透明揭露變得更重要。語音 AI 一旦能直接執行任務,它就不只是產品功能,而是企業流程的一部分。
新模型已在 Realtime API 開放使用
OpenAI 已在 Realtime API 開放 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper。根據官方公告,GPT-Realtime-2 的價格為每 100 萬 audio input tokens 32 美元,cached input tokens 為 0.40 美元,每 100 萬 audio output tokens 64 美元;GPT-Realtime-Translate 為每分鐘 0.034 美元,GPT-Realtime-Whisper 為每分鐘 0.017 美元。
這組定價透露一個訊號:OpenAI 想讓開發者依照不同需求拆開使用語音能力。需要高推理、工具呼叫與長上下文的產品,可以使用 GPT-Realtime-2;需要跨語言互動的服務,可以使用 GPT-Realtime-Translate;只需要即時逐字稿或字幕的應用,則可以選擇 GPT-Realtime-Whisper。
後續值得觀察的重點包括:
- voice agent 是否會成為客服標配:當語音模型能推理與呼叫工具,傳統 IVR 與客服機器人可能被重新設計。
- 即時翻譯會不會進入更多消費產品:活動、影音、教育與跨國商務都可能受惠。
- 語音安全規範是否跟上產品速度:越自然的語音 AI,越需要透明告知、身份驗證與濫用防護。
- OpenAI 是否把語音能力帶進 ChatGPT 與 Codex 類產品:若語音成為 Agent 的主要入口,未來使用 AI 的方式會更像對助理開口交辦任務。
整體來看,GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper 代表 OpenAI 正把 Realtime API 從語音互動工具升級為語音 Agent 平台。接下來的競爭,不會只是誰的聲音更自然,而是誰能讓語音 AI 真正理解任務、調用工具、完成流程,並在企業環境中安全落地。
想每週掌握最新 AI 工具與趨勢?訂閱 AI 郵報,每週精選重點直送信箱,讓你不錯過任何重要動態。