數位證據保全

Sonntag, 1. November 2020

Facebook Open Source kann KI-Modelle direkt in Hunderte von Sprachen übersetzen

 

open source software link here

Facebook Open Source kann KI-Modelle direkt in Hunderte von Sprachen übersetzen

Facebook betont, dass das M2M-100-Modell 100 Sprachen direkt ineinander übersetzen kann, ohne dass eine Zwischenübersetzung durch Englisch mit zahlreichen Trainingsdaten erforderlich ist

Facebook gab gestern (19) bekannt, dass es das erste AI-Modell M2M-100, das kein Englisch benötigt und zwei Sprachen direkt übersetzen kann, als Open Source-Version anbieten wird.

Facebook wies darauf hin, dass die allgemeine maschinelle Übersetzung ein KI-Modell für jede Sprache und jede Aufgabe erstellen muss. Da es reichlich Englisch-Schulungsmaterialien gibt, wird ein englischzentriertes Übersetzungsmodell gebildet, wenn es beispielsweise um die Übersetzung von zwei anderen Sprachen als Englisch geht Für Chinesisch und Französisch werden die meisten maschinellen Übersetzungen vom Französischen ins Englische und dann vom Englischen ins Chinesische übersetzt. Facebook wies darauf hin, dass diese Art der Übersetzung, für die Englisch als Vermittler erforderlich ist, zum Verlust der ursprünglichen Absicht oder zu Übersetzungsfehlern führt, was nicht für die Übersetzungsanforderungen von mehr als 160 Sprachen auf der Facebook-Plattform geeignet ist.

Der heute auf GitHub veröffentlichte M2M-100 ist das Ergebnis jahrelanger maschineller Übersetzungsforschung auf Facebook AI. Es ist die erste mehrsprachige maschinelle Übersetzung (MMT), die direkt in 2 von 100 Sprachen übersetzt wird, ohne auf Englisch angewiesen zu sein. Facebook erklärte, dass das Unternehmen neue Erkundungstechnologien verwendet habe, um Übersetzungsdaten zu erhalten, und einen "Viele-zu-Viele" -Datensatz basierend auf den gefundenen 100 Milliarden Sätzen erstellt habe. Dieses Viele-zu-Viele-System ist auch das erste, das die neueste PyTorch-Bibliothek von Facebook verwendet Das System von Fairscale bildete einen Datensatz mit 7,5 Milliarden Sätzen in 100 Sprachen und 2.200 Übersetzungsrichtungen (z. B. Chinesisch nach Französisch). Schließlich verwendeten sie mehrere Techniken, um dieses einzelne Modell mit 15 Milliarden Parametern zu trainieren.

Facebook wies darauf hin, dass das Modell mit dem Namen M2M-100 relevante Sprachinformationen sammeln kann, die eine vielfältigere Sprach- und Wortbildung widerspiegeln. Facebook behauptet, dass das Modell laut einem BLEU-Test (zweisprachige Evaluierungsstudie, bei dem die Qualität der maschinellen Übersetzung und mehr als eine menschliche Referenzübersetzung verglichen werden) genauso gut ist wie die traditionelle zweisprachige Übersetzung und besser als der derzeitige englischzentrierte Ansatz von Facebook. Das mehrsprachige Übersetzungsmodell ist ebenfalls 10 Punkte höher.

Facebook gab bekannt, dass es plant, das derzeit verwendete maschinelle Übersetzungsmodell in Zukunft durch M2M-100 zu ersetzen, um die Qualität der Sprachübersetzung auf der Plattform zu verbessern, insbesondere die schwächeren Sprachen, die von Millionen von Menschen verwendet werden.

 

Facebook open source can directly translate AI models in hundreds of languages

Facebook emphasizes that the M2M-100 model can directly translate 100 languages ​​to each other, without the need for intermediary translation through English with abundant training data

Facebook announced yesterday (19) that it will open source the first AI model M2M-100 that does not require English and can directly translate two languages.

Facebook pointed out that general machine translation needs to build an AI model for each language and each task. Because English training materials are abundant, an English-centric translation model is formed; when it comes to translating two languages ​​other than English, for example For Chinese and French, most machine translations are translated from French to English, and then from English to Chinese. Facebook pointed out that this kind of translation that requires English as an intermediary will lead to loss of original intent or translation errors, which is not suitable for the translation needs of more than 160 languages ​​on the Facebook platform.

The M2M-100 released on GitHub today is the result of years of machine translation research on Facebook AI. It is the first single multilingual machine translation (MMT) that directly translates into 2 of 100 languages ​​without relying on English. Facebook explained that the company used new exploration technology to obtain translation data and built a "many-to-many" data set based on the 100 billion sentences it found. This many-to-many system is also the first to use Facebook’s latest PyTorch library Fairscale's system formed a data set containing 7.5 billion sentences in 100 languages ​​and 2,200 translation directions (such as Chinese to French). In the end they used multiple techniques to train this single model with 15 billion parameters.

Facebook pointed out that the model named M2M-100 can collect relevant language information, reflecting the aspect of more diversified language and word formation. Facebook claims that according to a BLEU (bilingual evaluation understudy, which compares the quality of machine translation and more than one human reference translation) test, the model is as good as traditional bilingual translation and is better than Facebook’s current English-centric approach. The multilingual translation model is also 10 points higher.

Facebook stated that it plans to replace the currently used machine translation model with M2M-100 in the future to improve the language translation quality on the platform, especially the weaker languages ​​used by millions of people.

 

Facebook с открытым исходным кодом может напрямую переводить модели ИИ на сотни языков

Facebook подчеркивает, что модель M2M-100 может напрямую переводить 100 языков друг на друга без необходимости промежуточного перевода на английский с большим количеством обучающих данных.

Facebook объявил вчера (19), что откроет исходный код первой модели ИИ M2M-100, которая не требует английского языка и может напрямую переводить на два языка.

Facebook указал на то, что общий машинный перевод должен создавать модель ИИ для каждого языка и каждой задачи. Поскольку учебных материалов по английскому много, формируется ориентированная на английский язык модель перевода; например, когда речь идет о переводе двух языков, кроме английского, Для китайского и французского языков большинство машинных переводов переводятся с французского на английский, а затем с английского на китайский. Facebook указал, что такой перевод, который требует использования английского в качестве посредника, может привести к потере первоначального намерения или ошибкам перевода, и он не подходит для потребностей в переводе более чем на 160 языков на платформе Facebook.

M2M-100, выпущенный сегодня на GitHub, является результатом многолетних исследований в области машинного перевода в Facebook AI. Это первый многоязычный машинный перевод (MMT), который может напрямую переводить 2 из 100 языков, не полагаясь на английский. Facebook объяснил, что компания использовала новую технологию исследования для получения данных перевода и построила набор данных «многие ко многим» на основе найденных 100 миллиардов предложений. Эта система «многие ко многим» также является первой, использующей последнюю библиотеку PyTorch от Facebook. Система Fairscale сформировала набор данных, содержащий 7,5 миллиардов предложений на 100 языках и 2200 направлений перевода (например, с китайского на французский). Наконец, они использовали несколько методов для обучения этой единственной модели с 15 миллиардами параметров.

Facebook указал, что модель под названием M2M-100 может собирать соответствующую языковую информацию, отражая более разнообразный язык и словообразование. Facebook утверждает, что согласно тесту BLEU (двуязычный оценочный дублер, который сравнивает качество машинного перевода и более чем одного ручного перевода), модель ничем не хуже традиционного двуязычного перевода и лучше, чем нынешний англоязычный подход Facebook. Модель многоязычного перевода также на 10 пунктов выше.

Facebook заявил, что в будущем планирует заменить используемую в настоящее время модель машинного перевода на M2M-100, чтобы улучшить качество языкового перевода на платформе, особенно для более слабых языков, используемых миллионами людей.

 

脸书开源可直接翻译上百种语言的AI模型

脸书强调M2M-100模型能直接互译100种语言,不需透过训练资料较充裕的英文进行中介转译

脸书昨(19)日宣布将首个不需透过英语、可直接翻译两种语言的AI模型M2M-100开源出来。

脸书指出,一般机器翻译需要为每种语言及每种任务建立一种AI模型,由于英语训练资料较充裕,因此形成以英语为中心的翻译模式;碰上要翻译非英语的两种语言,例如中文和法文时,大部份机器翻译采取法文翻成英文,再由英文翻成中文。脸书指出,这种需要以英文为中介的翻译会导致原意流失或翻译错误,并不适合脸书平台上160多种语言贴文翻译的需求。

今天于GitHub释出的M2M-100是脸书AI多年机器翻译研究的成果。它是第一个不需仰赖英语直接为100种语言中的2种进行翻译的单一多语言机器翻译(multilingual machine translationMMT)。脸书解释,该公司利用新的探勘技术取得翻译资料,并以找来的1000亿句子为基础建立「多对多」的资料集,这个多对多系统也是第一个使用脸书最新PyTorch library Fairscale的系统,形成的资料集包含100种语言、2,200 种翻译方向(如中文到法语算一种)的75亿句子。最后他们使用多种技术来训练这个具备150亿个参数的单一模型。

脸书指出,名为M2M-100的模型可搜集相关语言资讯,反映更多元化语言及构词学的面向。脸书声称,根据一次BLEUbilingual evaluation understudy,比较机器翻译和1个以上人工参考翻译的品质量测)测试下,该模型和传统双语翻译效果一样好,并比脸书现在以英文为中心的多语言翻译模型还高出10分。

脸书表示未来计画以M2M-100来取代现行使用的机器翻译模型,来提升平台上的语言翻译品质,特别是数百万人使用的弱势语言。

臉書開源可直接翻譯上百種語言的AI模型

臉書強調M2M-100模型能直接互譯100種語言,不需透過訓練資料較充裕的英文進行中介轉譯

臉書昨(19)日宣布將首個不需透過英語、可直接翻譯兩種語言的AI模型M2M-100開源出來。

臉書指出,一般機器翻譯需要為每種語言及每種任務建立一種AI模型,由於英語訓練資料較充裕,因此形成以英語為中心的翻譯模式;碰上要翻譯非英語的兩種語言,例如中文和法文時,大部份機器翻譯採取法文翻成英文,再由英文翻成中文。臉書指出,這種需要以英文為中介的翻譯會導致原意流失或翻譯錯誤,並不適合臉書平臺上160多種語言貼文翻譯的需求。

今天於GitHub釋出M2M-100是臉書AI多年機器翻譯研究的成果。它是第一個不需仰賴英語直接為100種語言中的2種進行翻譯的單一多語言機器翻譯(multilingual machine translationMMT)。臉書解釋,該公司利用新的探勘技術取得翻譯資料,並以找來的1000億句子為基礎建立「多對多」的資料集,這個多對多系統也是第一個使用臉書最新PyTorch library Fairscale的系統,形成的資料集包含100種語言、2,200 種翻譯方向(如中文到法語算一種)的75億句子。最後他們使用多種技術來訓練這個具備150億個參數的單一模型。

臉書指出,名為M2M-100的模型可蒐集相關語言資訊,反映更多元化語言及構詞學的面向。臉書聲稱,根據一次BLEUbilingual evaluation understudy,比較機器翻譯和1個以上人工參考翻譯的品質量測)測試下,該模型和傳統雙語翻譯效果一樣好,並比臉書現在以英文為中心的多語言翻譯模型還高出10分。

臉書表示未來計畫以M2M-100來取代現行使用的機器翻譯模型,來提升平臺上的語言翻譯品質,特別是數百萬人使用的弱勢語言。