Facebook може да преведе практически всяко писмено съдържание, публикувано в социалната мрежа, на местния език, използвайки автоматизиран машинен превод. Всъщност Facebook предоставя около 20 милиарда превода всеки ден само за своя News Feed. Системата обаче използва обикновено английския език като посредник – тоест преводът от китайски на френски преминава от китайски на английски на френски.
Посредничеството има смисъл, тъй като наборите от данни за преводи на и от английски са масивни и широко достъпни. Но, от друга страна, поставянето на английския в средата на превода намалява общата точност, като същевременно прави целия процес по-сложен и тромав, отколкото трябва.
Ето защо Facebook AI разработи нов MT модел, който може двупосочно да превежда директно между два езика (китайски на френски и френски на китайски), без никога да използва английски като посредник, и който превъзхожда англоцентричния модел с 10 точки по BLEU метриките, съобщи Engadget.
Основното предизвикателство всъщност е как със съществуващите системи за превод да се отговори на потребностите на хората по целия свят, споделя Анджела Фан, научен сътрудник във Facebook AI. Целта е системата да превежда директно на всички езици и във всички посоки.
Така например, има много региони в света, където хората говорят множество езици, но нито един от тях не е английски, докато съществуващите системи за превод разчитат основно на данни само на английски. От милиардите публикации ежедневно на 160 езика в платформата на Facebook две трети са на език, различен от английския, отбелязва Фан.
M2M-100, първият многоезичен модел за машинен превод (MMT), може директно да превежда напред-назад между всяка двойка от набор от 100 езика. Като цяло Facebook AI е създал огромен набор от данни, състоящ се от 7,5 милиарда изречения за 100 езика. Използвайки това, изследователският екип е обучил универсален модел за превод с повече от 15 милиарда параметъра, „който улавя информация от сродни езици и отразява разнообразната писменост на езиците и морфологията”, пояснява Facebook в блог публикация.
За да направи това, Facebook е събрал набор от публично достъпни данни от цял свят, използвайки различни нови техники. Анджела Фан описва изследователската работа през годините като изграждане на система от различни Lego парчета.
Първоначално екипът използва CommonCrawl, който поддържа отворено хранилище на данни за обхождане на уеб, за да събира текстови примери от мрежата. След това се заема с идентифициране на езика на текста, използвайки FastText – система за класификация на текстове, разработена от Facebook, чийто код е отворен преди няколко години.
„Традиционно хората използват човешки преводачи, за да създават данни за превод. Това е сложно да се прави в мащаб, тъй като е трудно, например, да се намери някой, който говори английски и тамилски, но още по-трудно е да се намери някой, който говори френски и тамилски заедно, тъй като неанглийският превод все още е област, която се нуждае от подобрение”, разказва Фан.
За да извлече необходимите данни в мащаб, екипът разчита на системата LASER. Тя чете изречения, взема текста и създава математическо представяне на този текст, така че изреченията, които имат едно и също значение, да отразяват една и съща мисъл. „Така че, ако имам изречения на китайски и френски и те казва едно и също нещо, те ще се припокрият – като диаграма на Вен, а припокриващата се област е видът текст, който според нас са еднакви изречения”, пояснява Фан.
Разбира се, не всички езици разполагат с голямо количество писмено съдържание в интернет. В тези ситуации екипът на Фан се обръща към едноезични данни. „Ако целта ми е да превеждам от китайски на френски, но по някаква причина не получавам добро качество, ще се опитам да подобря това, като взема текстове от едноезични данни на френски език. И това, което правя, е да обучавам обратно системата: преминавам от френски на китайски. Вземам целия текст на френски, например, от Уикипедия, и го превеждам на китайски”.
По този начин се получават множество машинно генерирани „синтетични” данни, а моделът за превод става много по-силен. Дали това ще доведе до цифрова Babel Fish, способна да превежда без загуби между 6200-те странно говорими езика, предстои да разберем. Фен отбелязва, че крайният успех на този проект зависи от количеството ресурси, които AI може да използва.
За основните езици като френски, китайски, немски, испански и хинди тези ресурси са огромни. „Хората пишат тонове текст в мрежата на тези езици”, отбеляза Фен. „Те наистина успяха да помогнат с много данни и нашите модели могат да използват тези данни, за да се подобрят”.
Facebook пуска набора от данни, модела, обученията и настройките за оценка като отворен код за изследователската общност, за да подпомогне по-нататъшния напредък. Компанията също така планира да продължи да развива системата самостоятелно и в крайна сметка да използва технологията в ежедневните си операции.