Facebook ще превежда езици директно един в друг

Изкуствен интелект ни приближава до директния превод от един език на друг
(снимка: CC0 Public Domain)

Facebook може да преведе практически всяко писмено съдържание, публикувано в социалната мрежа, на местния език, използвайки автоматизиран машинен превод. Всъщност Facebook предоставя около 20 милиарда превода всеки ден само за своя News Feed. Системата обаче използва обикновено английския език като посредник – тоест преводът от китайски на френски преминава от китайски на английски на френски.

Посредничеството има смисъл, тъй като наборите от данни за преводи на и от английски са масивни и широко достъпни. Но, от друга страна, поставянето на английския в средата на превода намалява общата точност, като същевременно прави целия процес по-сложен и тромав, отколкото трябва.

Ето защо Facebook AI разработи нов MT модел, който може двупосочно да превежда директно между два езика (китайски на френски и френски на китайски), без никога да използва английски като посредник, и който превъзхожда англоцентричния модел с 10 точки по BLEU метриките, съобщи Engadget.

Основното предизвикателство всъщност е как със съществуващите системи за превод да се отговори на потребностите на хората по целия свят, споделя Анджела Фан, научен сътрудник във Facebook AI. Целта е системата да превежда директно на всички езици и във всички посоки.

Така например, има много региони в света, където хората говорят множество езици, но нито един от тях не е английски, докато съществуващите системи за превод разчитат основно на данни само на английски. От милиардите публикации ежедневно на 160 езика в платформата на Facebook две трети са на език, различен от английския, отбелязва Фан.

M2M-100, първият многоезичен модел за машинен превод (MMT), може директно да превежда напред-назад между всяка двойка от набор от 100 езика. Като цяло Facebook AI е създал огромен набор от данни, състоящ се от 7,5 милиарда изречения за 100 езика. Използвайки това, изследователският екип е обучил универсален модел за превод с повече от 15 милиарда параметъра, „който улавя информация от сродни езици и отразява разнообразната писменост на езиците и морфологията”, пояснява Facebook в блог публикация.

[related-posts]

За да направи това, Facebook е събрал набор от публично достъпни данни от цял свят, използвайки различни нови техники. Анджела Фан описва изследователската работа през годините като изграждане на система от различни Lego парчета.

Първоначално екипът използва CommonCrawl, който поддържа отворено хранилище на данни за обхождане на уеб, за да събира текстови примери от мрежата. След това се заема с идентифициране на езика на текста, използвайки FastText – система за класификация на текстове, разработена от Facebook, чийто код е отворен преди няколко години.

„Традиционно хората използват човешки преводачи, за да създават данни за превод. Това е сложно да се прави в мащаб, тъй като е трудно, например, да се намери някой, който говори английски и тамилски, но още по-трудно е да се намери някой, който говори френски и тамилски заедно, тъй като неанглийският превод все още е област, която се нуждае от подобрение”, разказва Фан.

За да извлече необходимите данни в мащаб, екипът разчита на системата LASER. Тя чете изречения, взема текста и създава математическо представяне на този текст, така че изреченията, които имат едно и също значение, да отразяват една и съща мисъл. „Така че, ако имам изречения на китайски и френски и те казва едно и също нещо, те ще се припокрият – като диаграма на Вен, а припокриващата се област е видът текст, който според нас са еднакви изречения”, пояснява Фан.

Разбира се, не всички езици разполагат с голямо количество писмено съдържание в интернет. В тези ситуации екипът на Фан се обръща към едноезични данни. „Ако целта ми е да превеждам от китайски на френски, но по някаква причина не получавам добро качество, ще се опитам да подобря това, като взема текстове от едноезични данни на френски език. И това, което правя, е да обучавам обратно системата: преминавам от френски на китайски. Вземам целия текст на френски, например, от Уикипедия, и го превеждам на китайски”.

По този начин се получават множество машинно генерирани „синтетични” данни, а моделът за превод става много по-силен. Дали това ще доведе до цифрова Babel Fish, способна да превежда без загуби между 6200-те странно говорими езика, предстои да разберем. Фен отбелязва, че крайният успех на този проект зависи от количеството ресурси, които AI може да използва.

За основните езици като френски, китайски, немски, испански и хинди тези ресурси са огромни. „Хората пишат тонове текст в мрежата на тези езици”, отбеляза Фен. „Те наистина успяха да помогнат с много данни и нашите модели могат да използват тези данни, за да се подобрят”.

Facebook пуска набора от данни, модела, обученията и настройките за оценка като отворен код за изследователската общност, за да подпомогне по-нататъшния напредък. Компанията също така планира да продължи да развива системата самостоятелно и в крайна сметка да използва технологията в ежедневните си операции.

Facebook ще превежда езици директно един в друг

TechNews.bg

Коментари

Работа на 5 места дистанционно: ИТ спец печели близо милион долара годишно

Прогноза: AI балонът няма да се спука, но ще „спихне“

InfoSec SEE 2026: Предизвикателства към сигурността в ерата на AI

Киберзащита 2026: трябва да сме като Кевин от „Сам вкъщи“

InfoSec SEE 2026 очерта нова бизнес-роля: директор по използване на AI

Ново предизвикателство: заплаха ли е агентният AI за бизнеса?

За едни Първи юни носи радост, за други тишина – заедно можем да променим тази история

Разликата в тестването на уязвимости се разширява

Хибридна приливно-фотоволтаична система черпи възобновяема енергия от речни устия

Как един център за данни изгълта 113 млн. литра вода

AI агентите могат да превърнат задачите в дигитално бедствие

Huawei очаква да завладее една трета от пазара с HarmonyOS

Първият електрически Volkswagen GTI: мощност 226 к.с. и над 400 км пробег

CAPTCHA проверките преминават към цялостен поведенчески анализ

Huawei добавя още един цвят в отворените слушалки FreeClip 2

Авиокомпании по целия свят преминават към Starlink

Въглищните електроцентрали тихомълком вредят на слънчевите панели

Дестилирана класика и непреходна елегантност: iPhone 17e

Спокойствие и сигурен достъп – три смарт ключалки WELOCK

Литиевите батерии се оказаха по-опасни, отколкото се смяташе

Linux компютри са пробити от хакери в продължение на 9 години

HONOR 600 Pro и HONOR 600 от A1 – в комплект с безжични слушалки и на специална цена

А1 приема предварителни поръчки за новия OPPO Find X9 Ultra

Huawei добавя още един цвят в отворените слушалки FreeClip 2

Идва нова вълна в лаптопите: Googlebook с Android

ElevenMusic – това AI приложение композира песни по текстови описания

SofiaBus – безплатно приложение за градския транспорт в столицата

още от категорията

Коментари