Meta推出更自然更即時的翻譯模型「Seamless」

Meta最近更新了其多模態AI翻譯模型「SeamlessM4T」,該模型支持近100種文字語言和36種語音語言。隨著新的「v2」架構的推出,Meta正在進一步擴展這一工具,以使對話翻譯變得更加自然和有表現力。這一更新將對日常生活和內容製作領域都產生重大影響 。

Meta推出更自然更即時的翻譯模型「Seamless」

Meta最近更新了其多模態AI翻譯模型「SeamlessM4T」,該模型支持近100種文字語言和36種語音語言。隨著新的「v2」架構的推出,Meta正在進一步擴展這一工具,以使對話翻譯變得更加自然和有表現力。這一更新將對日常生活和內容製作領域都產生重大影響​​。

新功能中的第一項是「SeamlessExpressive」,這個功能將用戶的表達方式(包括音調、音量、情感調性(如興奮、悲傷或低聲說話)、語速和停頓)轉化到翻譯的語音中。目前支持的語言包括英語、西班牙語、德語、法語、意大利語和中文。這種將用戶表達方式融入翻譯的創新做法,使得翻譯的語音不再顯得機械化​​​​。

第二項新功能是「SeamlessStreaming」,該功能可在講話者仍在說話時開始翻譯,使其他人能夠更快聽到翻譯。這項技術雖然仍有短暫的延遲(不到兩秒),但至少不需要等到某人完成一句話。Meta表示,挑戰在於不同語言有不同的句子結構,因此它必須開發一種專門的算法,來研究部分音頻輸入,以決定是否有足夠的上下文來開始生成翻譯輸出,或者是否繼續聆聽​​。

現在將 SeamlessM4T v2、SeamlessExpressive、SeamlessStreaming 合併成 Seamless 模型,讓翻譯做到接近「無縫接軌」的狀態,現在已經可以上Hugging Face 上試用。此外為了確保真實性,從這些表達式模型生成的音頻輸出都包含水印。在創建翻譯時,會在生成的音頻信號中添加一個聽不見的簽名用於追蹤,從而提高安全性。這種方法可以對較短的段落進行水印,比目前最先進的方法更加穩健​​

Read more

【ChatGPT Agent】AI 現在不只會想,還能「動手做」!從研究到行動的新里程碑

【ChatGPT Agent】AI 現在不只會想,還能「動手做」!從研究到行動的新里程碑

2025 年 7 月,OpenAI 正式推出 ChatGPT Agent 模式,這是一個結合 AI 推理力與實際操作能力的全新技術突破。從「幫你規劃晚餐並購買食材」到「分析競品並生成簡報」,ChatGPT 不再只是對話模型,而是變成你身邊最懂事、會執行的數位助理。 🔍 ChatGPT Agent 是什麼?一個能幫你完成任務的 AI ChatGPT Agent 是 OpenAI 打造的一套「代理型系統(agentic system)」,它能主動選擇工具、執行網頁操作、分析資料並產出結果。你可以給它任務指令,像是: * 根據行事曆與新聞準備客戶會議簡報 * 幫你查資料、做分析,並整理成 Excel 或 PPT 幫你規劃與預訂旅行行程、晚餐聚會等 它會自己打開網頁、篩選內容、下載檔案、