Mozilla подобри системата за разпознаване на реч DeepSpeech

Новата система DeepSpeech е много по-бърза в разпознаването на реч
(снимка: CCO Public Domain)

Разработчиците на Mozilla обявиха актуализация на DeepSpeech – набор от инструменти за разпознаване на реч. Новата версия v0.6 се явява една от най-бързите системи за разпознаване на реч с отворен код, достъпни в момента.

Обновената DeepSpeech интегрира поддръжка на TensorFlow Lite, версия на системата за машинно обучение на Google, която е оптимизирана за използване на мобилни устройства с ограничени възможности, съобщи в блог публикация Рубен Мораис, разработчик от Mozilla.

В резултат на това, размерът на DeepSpeech е намалял от 98MB на 3,7MB, а готовият вграден модел на английски език е редуциран от 188MB на 47MB. В допълнение, потреблението на памет е намаляло 22 пъти, а скоростта на стартиране на процеса на обработка на данни е увеличена с над 500 пъти.

Като цяло, системата DeepSpeech v0.6 е станала много по-продуктивна, благодарение на използването на нов поточен декодер, който осигурява постоянно ниско ниво на закъснения и използване на паметта, независимо от дължината на записания звук.

И двете основни подсистеми на платформата (акустичен модел и декодер) сега поддържат поточно предаване, така че разработчиците не трябва да прецизират собственото си оборудване. Обновената версия на DeepSpeech е в състояние да осигури транскрипция само 260 милисекунди след края на аудиото, което е със 73% по-бързо, в сравнение с производителността на системата преди интегрирането на поточния декодер.

Заслужава да се отбележи, че по отношение на производителността, новата система работи два пъти по-бързо, когато става въпрос за обучение на модела. Това е постигнато чрез използване на системата TensorFlow 1.14 и интегрирането на нови приложни програмни интерфейси (API).

За обучението на модела се използва набор от гласови данни Common Voice, състоящ се от 1400 часа реч на 18 различни езика. Разработчиците отбелязват, че това е един от най-големите многоезични набори от гласови данни. Той е значително по-голям от Common Voice, публикуван в миналото и състоящ се от 500 часа реч с примери за произношение от 20 000 доброволци (всички записи са на английски).

В момента екипът на Mozilla активно събира данни на 70 езика, за да направи DeepSpeech още по-усъвършенствана система за разпознаване на реч.

Коментар