Десетки езици застрашени от дигитална смърт

Шансът на много от европейските езици да оцелеят в дигиталната епоха не е голям, предупреждават водещи европейски експерти в сферата на езиковите технологии. Според ново изследване, повечето европейски езици са заплашени от дигитална смърт, съобщи БАН.

След оценка на състоянието на езиковите технологии за 30 от близо 80-те езика, които се говорят в Европа, експертите стигат до извода, че езиковите технологии за 21 от изследваните езика или „са недоразвити”, или са „слабо развити”. Изследването е проведено от Европейската мрежа за върхови постижения META-NET, в която членуват 60 изследователски центъра от 34 страни, сред които е и Институтът за български език „Проф. Любомир Андрейчин”.

Езиците са разгледани в четири различни категории: автоматичен превод, обработка и синтез на реч, анализ на текст и общо състояние на езиковите ресурси. В поне една от тези категории 21 от 30-те езика (т. е. 70%) получават най-ниската оценка (т. е. за тях липсват езикови технологии или съществуващите технологии са недоразвити), като за български категорията със слаба оценка е автоматичният превод.

Няколко езика, сред които исландски, латвийски, литовски и малтийски, получават най-ниска оценка и в четирите категории. Състоянието на наличните езикови ресурси и технологии не е оценено като „отлично” за нито един език, ресурсите за английски получават висока оценка, след това се нареждат холандски, френски, немски, италиански и испански език, които са оценени като „средно развити”.

Технологиите и ресурсите за езици като баски, български, каталански, гръцки, унгарски и полски са категоризирани като „фрагментарно развити”, което означава, че са сред езиците с висок риск от отмиране в дигиталната епоха.

Тоест, за момента българският език не е застрашен (получил средна оценка в категориите обработка на реч, анализ на текст и общо състояние на езиковите ресурси), но ситуацията би могла да се промени значително с навлизането на ново поколение технологии, използващи наистина ефективно естествените езици.

Под езикови технологии най-общо се разбира софтуер, който може да обработва говорима и писмена човешка реч. Добре познати приложения на такъв софтуер са програмите за правописна и граматична корекция и за синтез на реч (като SpeechLab 2.0 за български), интерактивните лични асистенти на смартфоните (например Siri за iPhone), диалоговите системи за обработка на въпроси по телефона, системите за автоматичен превод (като WebTrance на SkyCode), уеб търсачките, както и синтезаторите на реч в навигационните системи за автомобили.

Съвременните системи, базирани на езикови технологии, разчитат предимно на статистически методи, които изискват голям обем данни от писмена и устна реч. За езици със сравнително малък брой носители необходимият обем езикови данни се набира трудно – българският език например е в незавидна ситуация в сравнение с езици като френски, които се използват от цялата френскоговоряща общност. Освен това при компютърните системи, които се базират на статистическа обработка на езика, качеството на генерираните данни не е задоволително, както се вижда от грешните преводи, които се предлагат от онлайн системите за машинен превод.

Наблюдават се съществени липси в наличните технологии, тъй като повечето научно-изследователски инициативи в областта поставят твърде голям акцент и отделят много време, средства и усилия за развитие на технологии и ресурси за английски език. Повечето познати системи са изградени около и/или са насочени към английски и поддържат превод от и на малко други езици (български например), а и няма унификация, така че се налага потребителите да усвоят различни методи за работа с различните системи. За разработването на езикови технологии за останалите езици (освен английски) не са били поемани нито политически, нито финансови ангажименти и липсва ясна изследователска и технологична визия за развитие.

В момента Европа полага координирани мащабни усилия за разработване на липсващите езикови технологии, както и за техния трансфер между отделните езици. Големи международни корпорации като Google, Microsoft, IBM и Nuance също насочват сериозни инвестиции към това поле. В Европа стотици малки и средноголеми компании са се специализирали в разработване на определени езиково-технологични приложения и услуги. Езиковите технологии позволяват на хората да си сътрудничат, да учат, да правят бизнес, да споделят знания, независимо от езиковите и компютърните си умения.

Коментар