Meta推出更自然更即時的翻譯模型「Seamless」

Meta最近更新了其多模態AI翻譯模型「SeamlessM4T」,該模型支持近100種文字語言和36種語音語言。隨著新的「v2」架構的推出,Meta正在進一步擴展這一工具,以使對話翻譯變得更加自然和有表現力。這一更新將對日常生活和內容製作領域都產生重大影響 。

Share
Meta推出更自然更即時的翻譯模型「Seamless」

Meta最近更新了其多模態AI翻譯模型「SeamlessM4T」,該模型支持近100種文字語言和36種語音語言。隨著新的「v2」架構的推出,Meta正在進一步擴展這一工具,以使對話翻譯變得更加自然和有表現力。這一更新將對日常生活和內容製作領域都產生重大影響​​。

新功能中的第一項是「SeamlessExpressive」,這個功能將用戶的表達方式(包括音調、音量、情感調性(如興奮、悲傷或低聲說話)、語速和停頓)轉化到翻譯的語音中。目前支持的語言包括英語、西班牙語、德語、法語、意大利語和中文。這種將用戶表達方式融入翻譯的創新做法,使得翻譯的語音不再顯得機械化​​​​。

第二項新功能是「SeamlessStreaming」,該功能可在講話者仍在說話時開始翻譯,使其他人能夠更快聽到翻譯。這項技術雖然仍有短暫的延遲(不到兩秒),但至少不需要等到某人完成一句話。Meta表示,挑戰在於不同語言有不同的句子結構,因此它必須開發一種專門的算法,來研究部分音頻輸入,以決定是否有足夠的上下文來開始生成翻譯輸出,或者是否繼續聆聽​​。

現在將 SeamlessM4T v2、SeamlessExpressive、SeamlessStreaming 合併成 Seamless 模型,讓翻譯做到接近「無縫接軌」的狀態,現在已經可以上Hugging Face 上試用。此外為了確保真實性,從這些表達式模型生成的音頻輸出都包含水印。在創建翻譯時,會在生成的音頻信號中添加一個聽不見的簽名用於追蹤,從而提高安全性。這種方法可以對較短的段落進行水印,比目前最先進的方法更加穩健​​

Read more

一場社會實驗,680 萬人圍剿一張「AI 莫內」,結果那是真跡

一場社會實驗,680 萬人圍剿一張「AI 莫內」,結果那是真跡

AI 小道消息 01 OpenAI 將 Codex 帶上 iPhone,讓開發者可從手機追蹤、管理跑在電腦或遠端機器上的長時間 AI 編碼任務,手機透過安全中繼層連線且不曝露公網,適用所有方案用戶。此舉被普遍視為直接針對 Anthropic 今年 Q1 推出的 Remote Control 與 Dispatch 功能。 02 金融科技公司 Ramp 最新 AI Index 顯示,Anthropic 在企業付費 AI 採用率上首度超越 OpenAI,分別為 34.4% 與 32.3%。Anthropic 過去一年企業使用量翻了四倍,主要驅動力是 Claude Code 從技術團隊擴散到財務、法律與研究工作流;OpenAI