技術發展

Meta推出多語言語音與文字轉換AI模型，跨越語言障礙的重大突破

Mega 新推出的AI模型「SeamlessM4T」已引起廣泛關注，這款模型能夠跨越語言障礙，進行語音和文字之間的翻譯和轉換，涵蓋近100種語言，被認為是AI在語音和文字互轉領域的一大突破。此模型承襲了Meta「報表拋下任何語言」（No Language Left Behind，NLLB）專案和通用語音翻譯工具（Universal Speech Translator，UST）專案，基於大規模多語言語音（Massively Multilingual）語音（MMS）數據集，實現了語音轉語音、語音轉文字、文字轉語音、文字轉文字等四種模式的翻譯。

Hannah

23 Aug 2023 — 3 min read

據techcrunch報導，Mega 新推出的AI模型「SeamlessM4T」已引起廣泛關注，這款模型能夠跨越語言障礙，進行語音和文字之間的翻譯和轉換，涵蓋近100種語言，被認為是AI在語音和文字互轉領域的一大突破。此模型承襲了Meta「報表拋下任何語言」（No Language Left Behind，NLLB）專案和通用語音翻譯工具（Universal Speech Translator，UST）專案，基於大規模多語言語音（Massively Multilingual）語音（MMS）數據集，實現了語音轉語音、語音轉文字、文字轉語音、文字轉文字等四種模式的翻譯。

在模型的開發過程中，Meta從公開網絡收集了約數百億個句子的文字數據以及約400萬小時的語音數據作為訓練資料。據稱，這些數據的採集不受版權保護限制，主要來自於開源或獲得許可的內容。基於這些數據，Meta建立了名為「SeamlessAlign」的訓練數據組，該數據組包含了超過44.3萬個小時的語音和文字場景，以及2.9萬個小時的「語音轉語音」場景內容。

Meta表示，經過內部基準測試，SeamlessM4T在語音轉文字的處理表現上優異，與當前最先進的語音轉譯模型相比有顯著優勢。SeamlessM4T的優勢被歸因於其豐富的訓練數據，涵蓋了語音和文字兩方面的數據。

然而，Meta也坦承SeamlessM4T存在一些限制。Meta 透露，該模型“在從中性術語翻譯時過度概括為男性形式”，並且在大多數語言中從男性參考（例如英語中的“he”等名詞）翻譯時表現更好。此外，Meta 推測，在缺乏性別信息的情況下，SeamlessM4T 在大約 10% 的情況下更喜歡翻譯男性形式，這可能是因為訓練數據中“男性詞彙的比例過高”。

這些系統可能會導致詞彙豐富性的喪失，與人工智慧不同，人類口譯員在將一種語言轉換成另一種語言時，會根據具體情境做出獨特的選擇。他們可能會解釋、規範化、濃縮和總結，從而創造出一種非正式的翻譯風格，而人工智能系統可能會生成更「準確」的翻譯，但這種「準確」可能是以犧牲翻譯的多樣性和靈活性為代價，這也許解釋了為什麼Meta建議不要在某些情境下使用「SeamlessM4T」進行翻譯，特別是在需要長篇翻譯或經過認證的翻譯場景中。例如，政府機構和翻譯機構認可的翻譯可能不適合使用這種技術。

同樣，Meta也不建議將「SeamlessM4T」用於醫療或法律目的，這可能是為了避免在翻譯出現錯誤時可能引起的潛在風險。這一情況突顯了人工智慧翻譯與人類翻譯之間的差異，以及在特定領域中使用AI翻譯技術可能需要謹慎處理的挑戰。

Meta一直以開源方式向開發者和研究人員分享其AI模型。除了SeamlessM4T之外，近期還推出了能夠創造音樂的AudioCraft模型，以及大型語言模型Llama 2的開源使用，這一系列舉措彰顯了Meta對於促進AI領域發展的雄心。

Meta推出多語言語音與文字轉換AI模型，跨越語言障礙的重大突破

Hannah

Read more

Anthropic Project Glasswing 震撼發布：Claude Mythos Preview 找出上千零日漏洞，AI 資安時代正式來臨！

Amazon CEO 股東信揭露：AWS AI 服務年化營收突破 150 億美元，股價單日收漲 5.6%

Meta 砸 143 億重組 AI 後首款模型 Muse Spark 正式發布

Prompts → Projects → Skills｜3 分鐘搞懂 Claude 三層架構差在哪