OpenAI

OpenAI 推出 GPT-Realtime-2 與即時翻譯模型，Realtime API 語音 AI 進入任務代理階段

OpenAI 推出 GPT-Realtime-2、Translate、Whisper 三款 Realtime API 語音模型,支援 GPT-5 級推理、即時翻譯與低延遲轉錄,語音 AI 正式從對話介面走向可執行任務的 voice agent。

OpenAI 在 2026 年 5 月 7 日發布三款新的 Realtime API 語音模型,分別是 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper。根據 OpenAI 官方公告,這次更新讓開發者能建立可即時對話、推理、翻譯、轉錄並呼叫工具的語音 AI 應用。

這則新聞的重點不只是 OpenAI 又推出新的語音模型,而是 語音 AI 正從問答式互動升級為可執行任務的 voice agent。當語音模型能在使用者說話時理解上下文、呼叫工具、處理中斷、即時翻譯並產生逐字稿,語音介面就不再只是客服或聽寫功能,而會成為企業工作流與消費應用的新入口。

OpenAI 推出三款 Realtime API 語音模型

OpenAI 這次更新的核心,是把即時語音能力拆成三個更明確的模型角色。TechCrunch 在 2026 年 5 月 7 日報導指出,OpenAI 的 API 新增多項 voice intelligence 功能,讓開發者能打造可對話、轉錄與翻譯的語音應用。

三款模型分別對應不同場景:

GPT-Realtime-2:主打 GPT-5 級推理能力,適合建立能對話、理解複雜需求、呼叫工具並完成任務的語音 Agent。
GPT-Realtime-Translate:支援 70 多種輸入語言,並可翻譯成 13 種輸出語言,目標是即時跨語言對話。
GPT-Realtime-Whisper:提供低延遲串流語音轉文字,讓會議字幕、即時筆記與客服紀錄能在對話發生時同步生成。

這次更新延續了 GPT-Realtime 引領語音 AI 新紀元的發展方向。不同的是,OpenAI 這次不只強調語音自然度,而是把推理、翻譯、轉錄與工具使用放進同一個 API 生態中,讓語音 AI 更接近企業可部署的工作系統。

GPT-Realtime-2 讓語音 AI 更接近 Agent

GPT-Realtime-2 的重點是讓語音模型能一邊對話一邊完成任務,而不是只回應一句話。OpenAI 表示,GPT-Realtime-2 支援更長上下文,將語音模型的 context window 從 32K 提升到 128K,讓開發者能建立更長時間、更連貫的語音工作流。

這對 voice agent 很關鍵。真實語音互動不像文字聊天那麼整齊,使用者可能會臨時改口、插話、補充資訊,甚至在任務進行到一半時改變要求。GPT-Realtime-2 強調的能力,就是讓模型在這些情況下仍能保持對話節奏,並透過工具呼叫完成後續動作。

模型	主要能力	適合場景	關鍵差異
GPT-Realtime-2	即時語音推理與工具呼叫	客服 Agent、旅遊助理、排程、銷售支援	支援 GPT-5 級推理與 128K 上下文
GPT-Realtime-Translate	即時語音翻譯	跨國客服、活動翻譯、教育、媒體平台	70+ 輸入語言轉 13 種輸出語言
GPT-Realtime-Whisper	串流語音轉文字	會議字幕、逐字稿、客服紀錄、醫療紀錄	強調低延遲即時轉錄
GPT-Realtime-1.5	前代即時語音模型	一般即時語音互動	上下文與推理能力較新模型弱

OpenAI 也提到,GPT-Realtime-2 支援 parallel tool calls,能同時呼叫多個工具,並透過短句讓使用者知道它正在查詢或處理,例如「我幫你查一下」或「我正在確認行程」。這種語音回饋看似細節,實際上會影響使用者是否信任 voice agent 正在工作,而不是卡住或沉默。

這也和 OpenAI Codex 從寫程式走向通用 AI 超級應用的方向相互呼應。OpenAI 正把不同介面都推向 Agent 化:文字介面能操作電腦與工具,語音介面則開始承接即時、不中斷的任務流程。

即時翻譯與轉錄擴大語音 AI 使用場景

GPT-Realtime-Translate 與 GPT-Realtime-Whisper 讓 Realtime API 不只服務語音助理,也進入跨語言溝通與即時紀錄市場。OpenAI 表示,GPT-Realtime-Translate 可支援 70 多種輸入語言,並輸出成 13 種語言,目標是讓使用者在說話時就能完成翻譯,而不是等對話結束後再處理。

這對客服、教育、活動、創作者平台與跨國銷售都有直接意義。過去即時翻譯常見問題是延遲、語氣生硬、專有名詞不準,或無法跟上自然對話中的改口與補充。OpenAI 這次強調模型能在對話進行中保留語意並跟上說話者節奏,代表語音翻譯正在從「字幕工具」走向「跨語言互動介面」。

GPT-Realtime-Whisper 則負責即時語音轉文字。這不只是把會議內容轉成逐字稿,而是讓企業工作流能在對話發生時就啟動後續動作。例如客服通話中即時產生紀錄、醫療問診時同步整理摘要、招聘面試時標記重點,或會議進行中自動生成待辦事項。

Realtime API 釋放企業語音助理潛力早已指出,即時語音助理的關鍵不只是自然聊天,而是低延遲、可呼叫工具、能接上商業流程。這次 OpenAI 更新把這條路往前推了一步,讓語音模型更像工作流入口,而不是單一互動功能。

企業語音 Agent 的商業化速度會加快

這次 Realtime API 更新最直接的影響,是企業更容易把語音 AI 放進客服、旅遊、醫療、教育與銷售流程。OpenAI 在官方公告中提到,Zillow、Deutsche Telekom 等公司已在測試或建構相關語音體驗,涵蓋房產搜尋與跨語言客服。

語音 AI 的商業化價值在於,它可以降低使用者操作成本。使用者不必打字、不必切換頁面,也不必理解複雜表單,只要自然說出需求,voice agent 就能理解、追問、查資料並呼叫工具。這對行動場景尤其重要,例如開車、旅行、門市服務、客服中心或醫療照護。

不過,企業導入 voice agent 也會面臨新的風險。語音比文字更容易被誤解,也更容易涉及身份確認、同意告知、敏感資料與詐騙防範。OpenAI 在官方公告中提到,Realtime API 內建多層安全防護,並要求開發者在使用者與 AI 互動時保持清楚告知,避免語音模型被用於垃圾訊息、欺騙或其他濫用情境。

企業場景	Realtime API 可提供的能力	主要風險
客服中心	即時理解問題、查詢資料、回覆客戶	語音誤判、錯誤承諾、身份驗證
旅遊服務	透過語音修改行程、查詢航班與翻譯	即時資訊錯誤、跨系統權限控管
教育與活動	即時翻譯與字幕,支援跨語言互動	翻譯偏差、專有名詞錯誤
醫療與照護	即時轉錄問診與生成摘要	隱私、合規與錯誤紀錄
銷售與房產	以語音查詢條件並呼叫工具	法規限制、偏見與不當推薦

換句話說,OpenAI 這次推出的新語音模型,會讓 voice agent 更容易被企業採用,但也會讓語音安全、資料治理與透明揭露變得更重要。語音 AI 一旦能直接執行任務,它就不只是產品功能,而是企業流程的一部分。

新模型已在 Realtime API 開放使用

OpenAI 已在 Realtime API 開放 GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper。根據官方公告,GPT-Realtime-2 的價格為每 100 萬 audio input tokens 32 美元,cached input tokens 為 0.40 美元,每 100 萬 audio output tokens 64 美元;GPT-Realtime-Translate 為每分鐘 0.034 美元,GPT-Realtime-Whisper 為每分鐘 0.017 美元。

這組定價透露一個訊號:OpenAI 想讓開發者依照不同需求拆開使用語音能力。需要高推理、工具呼叫與長上下文的產品,可以使用 GPT-Realtime-2;需要跨語言互動的服務,可以使用 GPT-Realtime-Translate;只需要即時逐字稿或字幕的應用,則可以選擇 GPT-Realtime-Whisper。

後續值得觀察的重點包括:

voice agent 是否會成為客服標配:當語音模型能推理與呼叫工具,傳統 IVR 與客服機器人可能被重新設計。
即時翻譯會不會進入更多消費產品:活動、影音、教育與跨國商務都可能受惠。
語音安全規範是否跟上產品速度:越自然的語音 AI,越需要透明告知、身份驗證與濫用防護。
OpenAI 是否把語音能力帶進 ChatGPT 與 Codex 類產品:若語音成為 Agent 的主要入口,未來使用 AI 的方式會更像對助理開口交辦任務。

整體來看,GPT-Realtime-2、GPT-Realtime-Translate 與 GPT-Realtime-Whisper 代表 OpenAI 正把 Realtime API 從語音互動工具升級為語音 Agent 平台。接下來的競爭,不會只是誰的聲音更自然,而是誰能讓語音 AI 真正理解任務、調用工具、完成流程,並在企業環境中安全落地。

想每週掌握最新 AI 工具與趨勢?訂閱 AI 郵報,每週精選重點直送信箱,讓你不錯過任何重要動態。