Meta推出多語言語音與文字轉換AI模型,跨越語言障礙的重大突破

Mega 新推出的AI模型「SeamlessM4T」已引起廣泛關注,這款模型能夠跨越語言障礙,進行語音和文字之間的翻譯和轉換,涵蓋近100種語言,被認為是AI在語音和文字互轉領域的一大突破。此模型承襲了Meta「報表拋下任何語言」(No Language Left Behind,NLLB)專案和通用語音翻譯工具(Universal Speech Translator,UST)專案,基於大規模多語言語音(Massively Multilingual)語音(MMS)數據集,實現了語音轉語音、語音轉文字、文字轉語音、文字轉文字等四種模式的翻譯。

Meta推出多語言語音與文字轉換AI模型,跨越語言障礙的重大突破

techcrunch報導,Mega 新推出的AI模型「SeamlessM4T」已引起廣泛關注,這款模型能夠跨越語言障礙,進行語音和文字之間的翻譯和轉換,涵蓋近100種語言,被認為是AI在語音和文字互轉領域的一大突破。此模型承襲了Meta「報表拋下任何語言」(No Language Left Behind,NLLB)專案和通用語音翻譯工具(Universal Speech Translator,UST)專案,基於大規模多語言語音(Massively Multilingual)語音(MMS)數據集,實現了語音轉語音、語音轉文字、文字轉語音、文字轉文字等四種模式的翻譯。

在模型的開發過程中,Meta從公開網絡收集了約數百億個句子的文字數據以及約400萬小時的語音數據作為訓練資料。據稱,這些數據的採集不受版權保護限制,主要來自於開源或獲得許可的內容。基於這些數據,Meta建立了名為「SeamlessAlign」的訓練數據組,該數據組包含了超過44.3萬個小時的語音和文字場景,以及2.9萬個小時的「語音轉語音」場景內容。

Meta表示,經過內部基準測試,SeamlessM4T在語音轉文字的處理表現上優異,與當前最先進的語音轉譯模型相比有顯著優勢。SeamlessM4T的優勢被歸因於其豐富的訓練數據,涵蓋了語音和文字兩方面的數據。

然而,Meta也坦承SeamlessM4T存在一些限制。Meta 透露,該模型“在從中性術語翻譯時過度概括為男性形式”,並且在大多數語言中從男性參考(例如英語中的“he”等名詞)翻譯時表現更好。此外,Meta 推測,在缺乏性別信息的情況下,SeamlessM4T 在大約 10% 的情況下更喜歡翻譯男性形式,這可能是因為訓練數據中“男性詞彙的比例過高”。

這些系統可能會導致詞彙豐富性的喪失,與人工智慧不同,人類口譯員在將一種語言轉換成另一種語言時,會根據具體情境做出獨特的選擇。他們可能會解釋、規範化、濃縮和總結,從而創造出一種非正式的翻譯風格,而人工智能系統可能會生成更「準確」的翻譯,但這種「準確」可能是以犧牲翻譯的多樣性和靈活性為代價,這也許解釋了為什麼Meta建議不要在某些情境下使用「SeamlessM4T」進行翻譯,特別是在需要長篇翻譯或經過認證的翻譯場景中。例如,政府機構和翻譯機構認可的翻譯可能不適合使用這種技術。

同樣,Meta也不建議將「SeamlessM4T」用於醫療或法律目的,這可能是為了避免在翻譯出現錯誤時可能引起的潛在風險。這一情況突顯了人工智慧翻譯與人類翻譯之間的差異,以及在特定領域中使用AI翻譯技術可能需要謹慎處理的挑戰。

Meta一直以開源方式向開發者和研究人員分享其AI模型。除了SeamlessM4T之外,近期還推出了能夠創造音樂的AudioCraft模型,以及大型語言模型Llama 2的開源使用,這一系列舉措彰顯了Meta對於促進AI領域發展的雄心。

Read more

Meta 收購語音新創 Play AI:加速佈局 AI 聲音技術與超級智慧計畫

Meta 收購語音新創 Play AI:加速佈局 AI 聲音技術與超級智慧計畫

Meta 正式收購語音 AI 新創公司 Play AI,進一步強化其在人工智慧領域的投資與佈局。根據 Bloomberg 報導,Meta 已向媒體證實這項收購,並透露 Play AI 的全體團隊將於下週加入 Meta。 Play AI 是一家專注於開發自然人聲合成技術的創業公司,透過 AI 模型生成逼真的語音,並打造一個簡便的語音創作平台。Meta 在內部備忘錄中指出,Play AI 的技術與平台非常契合 Meta 的未來發展藍圖,尤其是在 AI 虛擬角色(AI Characters)、Meta AI 助理、可穿戴裝置(Wearables)、以及音頻內容創作等應用上。 0:00 /0:34 1× 收購金額未公開,顯示 Meta