【Ben Ho專欄】Realtime API:釋放企業語音助理的潛力

OpenAI 昨天發表了最新的 Realtime API,可以讓企業打造出與 chatGPT 的進階語音模式(Advanced Voice Mode)同等品質的服務。 如果你還沒用過進階voice mode,只要是付費版的 chatGPT 就可以直接使用了,很驚艷,一定要體驗看看。

【Ben Ho專欄】Realtime API:釋放企業語音助理的潛力
OpenAI 推出的 Realtime API 讓企業能打造即時語音助理,改善語音交互的延遲問題,並支援功能調用來執行操作如訂餐。雖然目前成本較高,但隨著 AI 成本下降,技術將更普及,應用範圍廣泛,涵蓋客服、自動化和智慧商務等領域。

OpenAI 昨天發表了最新的 Realtime API,可以讓企業打造出與 chatGPT 的進階語音模式(Advanced Voice Mode)同等品質的服務。
如果你還沒用過進階voice mode,只要是付費版的 chatGPT 就可以直接使用了,很驚艷,一定要體驗看看。

這次 release 出來的 Realtime API,可以讓我們輕鬆打造自己的語音助理系統。
這代表著更快速、更自然的語音交互方式將會變得更普及。

語音助理的真正崛起

我大概六七年前有開發過語音助理,但體驗其實都不會很好。 主因有兩個:

  1. 一個是 AI 的理解能力(這部分在 LLM 出來之後有大幅改進),
  2. 另一個就是延遲的問題

語音助理通常需要經過以下三個步驟:

3-steps-of-voice-assitant
  1. 使用者語音轉為文字(Speech-to-Text, STT)
  2. 用 AI 處理文字並生成回覆
  3. 將文字回覆轉為語音,並在設備上播放(Text-to-Speech, TTS)

延遲會導致使用體驗變得很差,也就無法真的普及。而隨著開發 Realtime API,我覺得語音助理將出現新的曙光。(請問 google 小姐您什麼時候要升級您的大腦)
企業將可實現即時的語音交互,讓純語音介面變得可能。 至少會過渡到語音為主、視覺為輔的交互模式,這將大大改變交互體驗。 (同樣的趨勢,可以參考 Meta 的 Orion)

另外,Realtime API 還支援 function call,讓語音助理不僅是回覆問題而已,還可以直接執行具體操作。 舉例來說,用戶可以通過語音訂餐或預訂房間,而語音助理則會自動處理並完成整個下訂流程。

成本

目前的語音處理成本為每分鐘語音輸入 $0.06 美元,輸出 $0.24 美元
假設一通 3 分鐘的訂餐電話,其中 1 分鐘是客戶在講話,2 分鐘是 AI 回覆,那麼整個過程大約需要 0.5 美元的成本。 看起來不算便宜,但如果考慮到 AI 使用的成本每年都會大幅降低,這項技術的應用將很快變得容易負擔。 更何況 On Device 的 AI 發展也非常快速,AI 的處理將有一部分落到使用者的裝置上,對企業而言,這部分就不需要成本了。

實際應用場景

OpenAI 在介紹中提到了 Healthify, 一家印度的 Health tech 公司,已經在使用 Realtime API 來提供即時語音助理服務。
另一個案例就是 Speak 這個語言學習 app,透過 Realtime API 讓學生可以與 AI 進行角色扮演對話,提升語言學習效果。 (Speak 前幾個月完成了一輪 20M 美元的融資,其中投資者包括了 OpenAI)

Speck uses Realtime API to power its role-play feature

Realtime API 的潛力將可能應用於多種場景,例如:

  • 客服系統:透過語音自動處理客戶查詢與訂單,節省人力並提升效率。
  • 內部流程自動化:企業可以使用語音助理簡化內部流程,例如會議安排、報告生成等,提升工作效率。
  • 智慧商務:透過語音交互優化客戶購物體驗,從產品推薦到訂單處理,全程自動化。

簡單來說,原本需要真人語音服務的工作,處理效率都可以被大幅提升。 未來可能的交互模式的改變,值得企業經營者的我們花時間去思考。

參考資料

  1. Introducing the Realtime API
  2. Realtime API Guide
  3. Case study of Healthify
  4. Speak Hits $500M Valuation, Expands Rapidly Across Markets

Read more

[資源分享] OpenAI釋出Prompt免費懶人包!超過300個專業提示詞助力職場效率提升

[資源分享] OpenAI釋出Prompt免費懶人包!超過300個專業提示詞助力職場效率提升

還在為不知道如何對AI下達精確指令而煩惱嗎?OpenAI Academy近期重磅推出「Prompt Packs」免費資源包,一次性釋出超過300個針對不同職能設計的專業提示詞範例。這套官方認證的提示詞懶人包涵蓋業務、客戶關係管理、產品經理、工程師、人資、IT、管理團隊、高階主管、財務及行銷等11大領域,提供結構清晰、可直接套用的範本,讓使用者能夠顯著提升AI工具的使用效率和輸出品質。

2025大阪萬博會參展心得與攻略:NTT館與「生命的未來」展館深度遊記

2025大阪萬博會參展心得與攻略:NTT館與「生命的未來」展館深度遊記

2025 大阪世博會是一次親眼見證未來科技與生活的盛會。本篇將分享我在世博中參觀 NTT 館與主題展館 「生命的未來」的心得與攻略。從 IOWN 技術帶來的「平行旅行」沉浸體驗,到石黑浩博士策展的仿生人社會藍圖,這兩大展館不僅展示前沿科技,更引發對「生命、存在與未來」的思考。文中也整理了參觀預約技巧、行前準備與現場攻略,幫助你在有限時間內不錯過最精彩的展館,並思考如何在日常生活中善用 AI 與新科技,迎接屬於我們的未來。

【深度分析】台灣拒絕美方「晶片 50-50」:關稅談判、矽盾與供應鏈重構全解析

【深度分析】台灣拒絕美方「晶片 50-50」:關稅談判、矽盾與供應鏈重構全解析

事件核心:台灣副閣揆兼關稅談判領隊鄭麗君返台表示,與美方談判並未討論、也不會同意所謂「在美國生產 50% 晶片」的構想;美方此一說法源於美國商務部長 Howard Lutnick 近日受訪的公開談話。台灣同步推進「高科技戰略夥伴關係」與關稅減免談判,盼降低目前對美出口 20% 關稅。 發生了什麼事? * 台灣明確拒絕「50-50」:鄭麗君指稱談判從未討論「50-50」且不會同意;此說為美方單方對外談話。 * 美方強化在地化論述:美國商務部長 Lutnick 受訪拋出「把一半晶片產能放在美國」等目標,並談到要大幅提升美國自製占比。 * 談判真正焦點在關稅:台灣尋求就對美 20% 關稅、Section 232 調查等議題取得實質減免與排除;官方稱已有「某些進展」。 媒體訊息校對與關鍵數字 * TSMC 在美投資金額:2025 年初多家媒體與美商務部資料皆以 650 億美元 / 三座廠為基礎;3