Meta推出多語言語音與文字轉換AI模型,跨越語言障礙的重大突破
Mega 新推出的AI模型「SeamlessM4T」已引起廣泛關注,這款模型能夠跨越語言障礙,進行語音和文字之間的翻譯和轉換,涵蓋近100種語言,被認為是AI在語音和文字互轉領域的一大突破。此模型承襲了Meta「報表拋下任何語言」(No Language Left Behind,NLLB)專案和通用語音翻譯工具(Universal Speech Translator,UST)專案,基於大規模多語言語音(Massively Multilingual)語音(MMS)數據集,實現了語音轉語音、語音轉文字、文字轉語音、文字轉文字等四種模式的翻譯。

據techcrunch報導,Mega 新推出的AI模型「SeamlessM4T」已引起廣泛關注,這款模型能夠跨越語言障礙,進行語音和文字之間的翻譯和轉換,涵蓋近100種語言,被認為是AI在語音和文字互轉領域的一大突破。此模型承襲了Meta「報表拋下任何語言」(No Language Left Behind,NLLB)專案和通用語音翻譯工具(Universal Speech Translator,UST)專案,基於大規模多語言語音(Massively Multilingual)語音(MMS)數據集,實現了語音轉語音、語音轉文字、文字轉語音、文字轉文字等四種模式的翻譯。
在模型的開發過程中,Meta從公開網絡收集了約數百億個句子的文字數據以及約400萬小時的語音數據作為訓練資料。據稱,這些數據的採集不受版權保護限制,主要來自於開源或獲得許可的內容。基於這些數據,Meta建立了名為「SeamlessAlign」的訓練數據組,該數據組包含了超過44.3萬個小時的語音和文字場景,以及2.9萬個小時的「語音轉語音」場景內容。
Meta表示,經過內部基準測試,SeamlessM4T在語音轉文字的處理表現上優異,與當前最先進的語音轉譯模型相比有顯著優勢。SeamlessM4T的優勢被歸因於其豐富的訓練數據,涵蓋了語音和文字兩方面的數據。
然而,Meta也坦承SeamlessM4T存在一些限制。Meta 透露,該模型“在從中性術語翻譯時過度概括為男性形式”,並且在大多數語言中從男性參考(例如英語中的“he”等名詞)翻譯時表現更好。此外,Meta 推測,在缺乏性別信息的情況下,SeamlessM4T 在大約 10% 的情況下更喜歡翻譯男性形式,這可能是因為訓練數據中“男性詞彙的比例過高”。
這些系統可能會導致詞彙豐富性的喪失,與人工智慧不同,人類口譯員在將一種語言轉換成另一種語言時,會根據具體情境做出獨特的選擇。他們可能會解釋、規範化、濃縮和總結,從而創造出一種非正式的翻譯風格,而人工智能系統可能會生成更「準確」的翻譯,但這種「準確」可能是以犧牲翻譯的多樣性和靈活性為代價,這也許解釋了為什麼Meta建議不要在某些情境下使用「SeamlessM4T」進行翻譯,特別是在需要長篇翻譯或經過認證的翻譯場景中。例如,政府機構和翻譯機構認可的翻譯可能不適合使用這種技術。
同樣,Meta也不建議將「SeamlessM4T」用於醫療或法律目的,這可能是為了避免在翻譯出現錯誤時可能引起的潛在風險。這一情況突顯了人工智慧翻譯與人類翻譯之間的差異,以及在特定領域中使用AI翻譯技術可能需要謹慎處理的挑戰。
Meta一直以開源方式向開發者和研究人員分享其AI模型。除了SeamlessM4T之外,近期還推出了能夠創造音樂的AudioCraft模型,以及大型語言模型Llama 2的開源使用,這一系列舉措彰顯了Meta對於促進AI領域發展的雄心。