fbpx

Meta「所有語言皆重要」專案 – AI 即時翻譯 100 多種口語和書面語言!

Meta「所有語言皆重要」專案 – AI 即時翻譯 100 多種口語和書面語言!
                                       

對於精通英文、中文或西班牙文等語言的人來說,現今的應用程式和網路工具似乎已經提供了大眾所需要的翻譯科技。但仍有數十億人,因大多時間無法輕鬆獲取網路上的資訊,也難以透過母語與網路世界互動聯繫而被排除在外。當今的機器翻譯(MT)系統不斷快速進步,但它們仍極度依賴從大量文本資料中學習,因此它們對低資料來源語言(就是指缺少訓練資料的語言)和沒有標準化書寫系統的語言通常成效不佳。消除語言障礙能讓數十億人在網路上使用他們的母語或偏好的語言來獲取資訊。MT 技術的進步不僅能幫助那些不會說當今網路主流語言的人,而且還能徹底改變世人互動聯繫和分享想法的方式。Meta 在打造元宇宙時,需要努力實現沉浸式虛擬空間的技術,讓人們無論說什麼語言,都可以參與其中並相互交流。

舉例來說,想像一個市場中,會說不同語言的用戶能使用手機、智慧型手錶或智慧型眼鏡即時相互交流;或是想像世上所有用戶都能以他們偏好的語言獲得網路上的多媒體內容。在不久的將來,元宇宙將透過虛擬實境(VR)和擴增實境(AR)等新興科技,將數位世界和實體世界融為一體;屆時,翻譯工具將讓人們能隨時隨地與任何人從事各種日常活動,而互動方式就如同與隔壁人互動一般。

 

Meta AI 即將宣佈一項打造語言及 MT 工具的長期計畫,其涵蓋絕大多數的語言,並分為兩個新專案。第一個專案名為「所有語言皆重要」(No Language Left Behind),Meta 正在建立全新的進階人工智慧模型,可以從實例較少的語言中學習訓練,Meta 將用它來達成數百種語言的專業級翻譯,其提供的語言類別從阿斯圖里亞斯語、盧干達語到烏爾都語應有盡有。

第二個專案為「通用語音翻譯」(Universal Speech Translator),Meta 正在設計一種全新方式,將一種語言的語音內容即時翻譯成另一種語言,以支援沒有標準書寫系統的語言,及那些有書面又有口語系統的語言。

 

翻譯每種語言所面臨的挑戰

現今的人工智慧翻譯系統的設計並不能涵蓋世界各地民眾所使用的數千種語言,也不能為這些語言提供即時語音翻譯服務。為了能真正服務所有人,MT 研究社群需要克服三大挑戰:一、取得更多語言的訓練資料,同時尋找新的方法來利用現有資料,藉此克服資料匱乏的問題。二、克服模型在擴展語言服務時所產生的挑戰。三、找到新的方法來評估並改進其成果。

 

 

 

將翻譯工具服務拓展到更多語言時,資料匱乏仍是最大的障礙之一。用於文本翻譯的 MT 系統通常仰賴從數百萬句注釋資料中學習。有鑑於此,MT 系統僅能針對網路上少數的主流語言進行開發,藉此提供優質的翻譯服務。若要將翻譯服務拓展至其他語言,則必須尋找各種方式,取得網路少數語言的例句作為訓練之用。

至於直接語音轉語音的翻譯,獲取資料的挑戰則更加嚴峻。大多數語音 MT 系統都使用文本作為中間步驟,也就是將一種語言的語音先轉換成文本,然後再翻譯成目標語言的文本,最後將文本輸入到文字轉語音系統以產生音訊。這使得語音轉語音的翻譯需要仰賴文本,從而限制了其效率,並使其難以拓展到主要為口語形式的語言。

如果能夠透過直接語音轉語音翻譯模型,對沒有標準化書寫系統的語言進行翻譯。這種方法將能夠帶來更快、更有效率的翻譯系統,因為這樣就不需要額外將語音轉換為文本並將其翻譯,然後才能產生目標語言的語音結果。

除了需要以數千種語言提供合適的訓練資料外,MT 系統目前的設計根本無法滿足全球所有人的需求。許多 MT 系統都採用雙語模式,這代表著每種語言對都有單獨的模型,如英語翻俄語或日語翻西班牙語。這種方法很難拓展成幾十種語言,更別說是世界上使用的所有語言了。

試想一下:如果要從泰語翻寮國語到尼泊爾語翻阿薩姆語等每一種組合建立並維護成千上萬種不同模型。許多專家建議,多語言系統可能會有所幫助。但是,要將多種語言整合到一個高效率、高效能,且能代表所有語言的多語言模型中,困難度極高。

即時語音轉語音 MT 模型與文本模型一樣,面臨著許多相同挑戰,它們也同樣需要先克服將一種語言翻譯成另一種語言時所產生的延遲問題,才能有效達成即時翻譯的目的。造成此類挑戰的原因是:在不同的語言中,同樣一句話說出來的語序可能有所不同。即便是專業的同步口譯員也會落後原話三秒左右

以德語句子「Ich möchte alle Sprachen übersetzen」和西班牙語句子「Quisiera traducir todos los idomas」為例。 兩者的意思都是「我想翻譯所有的語言」。但是,將德語即時翻譯成英語將更有挑戰性,因為德語動詞「翻譯」出現在句尾,而西班牙語和英語的語序則為相似。

最後,隨著拓展越來越多語言,也就需要開發新的方法來評估 MT 模型產生的工作成果。那麼現在已經有資源可以評估英語翻俄語的翻譯品質,但阿姆哈拉語翻哈薩克語的翻譯品質呢?

隨著 MT 模型可翻譯的語言數量不斷增加,Meta 也必須開發新的方法來訓練資料及衡量成效,以便納入更多語言。除了評估 MT 系統的準確性外,以負責任的方式提供翻譯服務也很重要。Meta 需要找到方法確保 MT 系統能保留多元文化差異,不會製造或加深偏見的方法。Meta AI 正在解決上述所提及三個挑戰中的每一項挑戰。

 

 

訓練低資料來源和直接語音轉語音翻譯系統

為了能提供低資料來源語言的翻譯服務,並為日後更廣泛的語言翻譯服務打下基礎,Meta 正在拓展自己的自動資料集建立技術。 LASER 便是其中一項技術。LASER 是一種開放原始碼工具組,現在包含超過 125 種以 28 種不同文字書寫的語言。

LASER 將各種語言的句子轉換為單一多語表述,然後使用大規模多語相似性搜尋功能來識別具有相似表述的句子(就是指在不同語言中可能會有相同含義的句子)。Meta 使用 LASER 來建立 ccMatrix 和 ccAligned 等系統,這些系統能夠在網路上找到平行文本。由於低資料來源語言的可用資料很少,因此 Meta 建立了一種新的師生訓練方法,使 LASER 能專注於特定語言亞群(例如班圖語),並從極小的資料集中學習。這使 LASER 能夠在不同語言間大規模有效運作。

Meta 目前致力於擴張、改善及拓展這些系統,以支援數百種語言的探勘作業,目標是希望最後能夠支援所有具有書寫系統的語言;在這段期間所獲得的每一項進展都將使 Meta 能夠提供更多種語言翻譯服務。最近 Meta 將 LASER 的服務擴展到了語音方面:Meta 在同樣的多語空間中為語音和文本建立表述,如此便能夠將一種語言的語音翻譯成另一種語言的文字,甚至直接進行語音對語音的翻譯。透過這種方法,Meta 已經識別出近 1,400 小時的法語、德語、西班牙語和英語對位語音資料。

文本資料很重要,但還不足以打造能滿足所有人需求的翻譯工具。過去,語音翻譯基準資料只能用於幾種語言,因此 Meta 建立了 CoVoST 2,涵蓋了 22 種語言和 36 種具有不同資料來源條件的語言方向。此外,要找到不同語言的大量音訊資料是一件相當困難的事。 VoxPopuli 含有 23 種語言 40 萬小時的語音資料,能夠為語音辨識和語音翻譯等語音應用程式提供大規模的半監督式和自監督式學習。VoxPopuli 後來被用做為 128 種語言和語音任務建立最大型開放和通用預先訓練模型,包括語音翻譯。該模型在 CoVoST 2 資料集上將 21 種語言翻譯至英語的語音翻文本技術水準提高了 7.4 BLEU。

 

 

建立適用於多種語言和不同形式的模型

除了產生更多的資料來訓練 MT 系統,並將其提供給其他研究人員之外,Meta 正在努力改善模型能力,以便處理更多語言之間的翻譯。目前,MT 系統通常在單一模式和有限的語言對中作業。如果模型太小無法代表多種語言,則其效能可能會受到影響,導致文本和語音翻譯不準確。若能在模型建立方面進行創新,將能協助日後開創新局,使多種語言的語音轉文本、文本轉語音、文本轉文本、或語音轉語音翻譯能夠快速、順暢地在多個形式之間運作。

為了提高 MT 模型的成效,Meta 在模型建立方面投注大量心血,讓模型在容量龐大的情況下仍能有效進行訓練;並將焦點放在稀疏門控混合專家模型(sparsely gated mixture-of-expert model)。Meta 提升了模型大小並學習自動路由功能,使不同的權杖使用不同的專家容量,藉此平衡高資料來源和低資料來源的翻譯成效。

為了將文本式 MT 服務拓展至 101 種語言,Meta 建立了第一個非以英語為中心的多語文本翻譯系統。雙語系統的作業方式通常會先將原始語言翻譯成英文,然後再將英文翻譯成目標語言。為了提高這些系統的效率和品質,Meta 移除了英文此一媒介,這樣各種語言就可以無須透過英語而直接翻譯成其他語言。雖然移除英文會增加模型的容量,且以往多語模型無法達到與自訂雙語系統相同的品質水準。然而,Meta 的多語翻譯系統近期贏得了機器翻譯研討會的競賽,其表現甚至超越最好的雙語模型。

Meta 致力於讓自身技術具有包容性:它應支援書面語言和沒有標準書寫系統的語言。考慮到這一點,Meta 正在開發一種不依賴生成中間文本表述的語音翻譯系統。這種方法已證實比傳統的串級系統更快,該系統結合了單獨的語音辨識、機器翻譯和語音合成模型。隨著效率提升和結構簡化,直接語音翻譯可為 AR 眼鏡等未來裝置,提供接近人類品質的即時翻譯。

最後,為了建立能保留每個人說話表達力和特點的口語翻譯,Meta 也正努力將音訊輸入資料的某些層面(例如音調)納入生成的音訊翻譯中。

 

衡量數百種語言的成效

開發能夠在更多語言之間進行翻譯的大規模模型帶來了一個重要問題:如何確定開發了更好的資料或模型?評估大規模多語模型的成效是一件非常棘手的事,尤其是必須對模型涵蓋的所有語言都具有實際專業知識;這是一項耗時、耗資且往往不切實際的挑戰。

Meta 建立了 FLORES-101,這是首個涵蓋 101 種語言的多語翻譯評估資料集,使研究人員能夠快速測試並改良多語翻譯模型。與現有資料集不同,FLORES-101 能讓研究人員量化系統在任何語言方向的成效,而不僅僅是英文的譯入和譯出。對於全世界數千萬生活在有幾十種官方語言地區的人來說,這能夠創造出滿足現實世界重要需求的翻譯系統。

同時,Meta 使用 FLORES-101 與人工智慧研究界的其他專家合作,以提升多語低資料來源翻譯服務的品質,並於 2021 年機器翻譯研討會上,主持了一項共同任務,來自世界各地的研究人員參與了該項研究任務,其中很多都專注於與他們個人相關的語言。

Meta 期待繼續拓展 FLORES,使其能涵蓋數百種語言。Meta 以負責任的方式在通用翻譯方面取得實質進展。同時,Meta 正與語言學家合作,以瞭解製作準確資料集時所面臨的挑戰,並建立評估員網絡,確保翻譯的準確度。此外,Meta 還與 20 多種語言的使用者一起進行案例研究,以瞭解不同背景的人認為重要的翻譯功能,以及他們將如何使用人工智慧模型所生成的翻譯。然而,開發通用翻譯服務有許多面向需要注意,包括減少偏見和負面互動,同時將資訊從一種語言傳遞到另一種語言時,需保留多元文化差異。若要實現長期翻譯目標,不僅需要人工智慧方面的專業知識,還需要來自世界各地的眾多專家、研究人員和個人持續投入。

未來方向

如果「所有語言皆重要」和「通用語音翻譯」專案能結合 MT 研究團隊的努力,成功創造出能將全世界所有人納入其中的翻譯技術,它將以前所未有的方式開啟數位和實體世界的連結。Meta 在為世界上大多數人口提供通用翻譯服務時所遇到為低資料來源語言提供翻譯的重大障礙上,已取得大幅度的進展

透過促進與開放 Meta 在語料庫的建立、多語模型和評估作業的原始碼,Meta 希望其他研究人員能夠以這些成果為基礎,使翻譯系統在現實世界中的應用能更貼近日常。

溝通能力是人類最基本的面向。從書面到視訊聊天等各種技術,改變了人們溝通和分享想法的方式。當這類技術能夠以同樣方式為全球數十億人提供服務時,其力量就能得到拓展;這些技術能讓全世界的人獲得相似的資訊,並能讓他們與來自各地無論口說或書寫的語言為何的受眾溝通交流。隨著我們努力建立一個更包容、更加緊密連結的世界,賦予人們自由選擇語言的權力,讓人們能打破現有資訊和機會障礙,將變得更加重要。

網路快訊

一個喜歡簡簡單單生活、相信著科技是我們的好幫手、追尋著科技與溫度平衡點的數位科技編輯

More in 網路快訊

Gaggenau米蘭設計週「重力升華」:揭秘未來廚房新樣貌

點子生活2024-04-18

AI 智能加持:Logitech MX Brio 4K 讓視訊更加清晰流暢

點子生活2024-04-18

趨勢科技揭露勒索病毒集團LockBit犯罪細節,讓駭客無所遁形

點子生活2024-04-17

台灣大哥大 5G 創新應用,助力偏鄉產業轉型升級

點子生活2024-04-17

華碩「完美守護」計畫:全方位呵護您的筆電

點子生活2024-04-17

遠傳3年新布局:定下「一年拓基、兩年有成、三年起飛」目標

點子生活2024-04-16