Meta推出多語言語音與文字轉換AI模型,跨越語言障礙的重大突破

Mega 新推出的AI模型「SeamlessM4T」已引起廣泛關注,這款模型能夠跨越語言障礙,進行語音和文字之間的翻譯和轉換,涵蓋近100種語言,被認為是AI在語音和文字互轉領域的一大突破。此模型承襲了Meta「報表拋下任何語言」(No Language Left Behind,NLLB)專案和通用語音翻譯工具(Universal Speech Translator,UST)專案,基於大規模多語言語音(Massively Multilingual)語音(MMS)數據集,實現了語音轉語音、語音轉文字、文字轉語音、文字轉文字等四種模式的翻譯。

Meta推出多語言語音與文字轉換AI模型,跨越語言障礙的重大突破

techcrunch報導,Mega 新推出的AI模型「SeamlessM4T」已引起廣泛關注,這款模型能夠跨越語言障礙,進行語音和文字之間的翻譯和轉換,涵蓋近100種語言,被認為是AI在語音和文字互轉領域的一大突破。此模型承襲了Meta「報表拋下任何語言」(No Language Left Behind,NLLB)專案和通用語音翻譯工具(Universal Speech Translator,UST)專案,基於大規模多語言語音(Massively Multilingual)語音(MMS)數據集,實現了語音轉語音、語音轉文字、文字轉語音、文字轉文字等四種模式的翻譯。

在模型的開發過程中,Meta從公開網絡收集了約數百億個句子的文字數據以及約400萬小時的語音數據作為訓練資料。據稱,這些數據的採集不受版權保護限制,主要來自於開源或獲得許可的內容。基於這些數據,Meta建立了名為「SeamlessAlign」的訓練數據組,該數據組包含了超過44.3萬個小時的語音和文字場景,以及2.9萬個小時的「語音轉語音」場景內容。

Meta表示,經過內部基準測試,SeamlessM4T在語音轉文字的處理表現上優異,與當前最先進的語音轉譯模型相比有顯著優勢。SeamlessM4T的優勢被歸因於其豐富的訓練數據,涵蓋了語音和文字兩方面的數據。

然而,Meta也坦承SeamlessM4T存在一些限制。Meta 透露,該模型“在從中性術語翻譯時過度概括為男性形式”,並且在大多數語言中從男性參考(例如英語中的“he”等名詞)翻譯時表現更好。此外,Meta 推測,在缺乏性別信息的情況下,SeamlessM4T 在大約 10% 的情況下更喜歡翻譯男性形式,這可能是因為訓練數據中“男性詞彙的比例過高”。

這些系統可能會導致詞彙豐富性的喪失,與人工智慧不同,人類口譯員在將一種語言轉換成另一種語言時,會根據具體情境做出獨特的選擇。他們可能會解釋、規範化、濃縮和總結,從而創造出一種非正式的翻譯風格,而人工智能系統可能會生成更「準確」的翻譯,但這種「準確」可能是以犧牲翻譯的多樣性和靈活性為代價,這也許解釋了為什麼Meta建議不要在某些情境下使用「SeamlessM4T」進行翻譯,特別是在需要長篇翻譯或經過認證的翻譯場景中。例如,政府機構和翻譯機構認可的翻譯可能不適合使用這種技術。

同樣,Meta也不建議將「SeamlessM4T」用於醫療或法律目的,這可能是為了避免在翻譯出現錯誤時可能引起的潛在風險。這一情況突顯了人工智慧翻譯與人類翻譯之間的差異,以及在特定領域中使用AI翻譯技術可能需要謹慎處理的挑戰。

Meta一直以開源方式向開發者和研究人員分享其AI模型。除了SeamlessM4T之外,近期還推出了能夠創造音樂的AudioCraft模型,以及大型語言模型Llama 2的開源使用,這一系列舉措彰顯了Meta對於促進AI領域發展的雄心。

Read more

Meta Connect 2025:六大重磅發布震撼科技界,智慧眼鏡革命正式開啟

Meta Connect 2025:六大重磅發布震撼科技界,智慧眼鏡革命正式開啟

Meta於2025年9月17-18日舉辦的年度開發者大會Meta Connect 2025,這場被譽為「智慧眼鏡元年」的科技盛會帶來了前所未有的創新突破。CEO馬克·祖克柏(Mark Zuckerberg)在活動中發布了六項重大產品更新,其中最受矚目的Meta Ray-Ban Display智慧眼鏡搭載革命性顯示技術和神經腕帶控制系統,標誌著穿戴式運算正式進入新紀元。這次發布會不僅展現了Meta在AI和穿戴科技領域的深厚實力,更為整個智慧眼鏡產業的未來發展指明了方向。

【AI 工具地圖】免費快速考取 Google Gemini Certified Educator 證照指南

【AI 工具地圖】免費快速考取 Google Gemini Certified Educator 證照指南

想在最短時間內獲得一張 Google 官方免費 AI 證照嗎?「Gemini Certified Educator」正是近期最熱門的選擇!這是一張專為教育者與學習者設計的 AI 能力認證,只要完成 37 題不限時的選擇題,就能立刻拿到有效期三年的電子證書,還能放到 LinkedIn 為履歷加分。考試重點涵蓋 Gemini 與 NotebookLM 的操作方法、Prompt 輸入技巧、AI 幻覺與偏見的判斷,即使你不是老師,也能透過這張證照展現專業的 AI 應用能力。本文將帶你完整解析:為什麼值得考?考什麼?如何準備?並附上報名流程,一篇搞懂,週末就能輕鬆拿到。

lock-1
全球第一位「AI 官員」上任,阿爾巴尼亞任命 AI 為內閣

全球第一位「AI 官員」上任,阿爾巴尼亞任命 AI 為內閣

從 AI 官員到語音翻譯,AI 這週正式「入職」現實世界。 阿爾巴尼亞任命全球首位 AI 部長,開啟政府決策新實驗;Google Meet 推出 2 秒內完成的即時語音翻譯,打破語言隔閡;Claude 則正式變身職場助理,能幫你轉檔寫簡報;而在內容世界,AI 播客工廠每週量產 3,000 集節目,一集成本不到 1 美元。 但這波 AI 熱潮是否過熱?OpenAI 董事長 Bret Taylor 坦言「泡沫存在,但這沒關係」,因為創造力會留下來──這週的新聞,也讓我們看見 AI 正從實驗室,跨出螢幕,成為真正的社會角色。

lock-1