
Изкуственият интелект даде силен тласък на гласовите технологии. AI-базиран софтуер с отворен код на Xiaomi клонира глас на стотици езици и вече превъзхожда търговските системи, според отзиви за разработката.
Xiaomi AI Labs отвори достъпа до OmniVoice, нова система за синтез на реч и клониране на глас, поддържаща 646 езика. Тя може да говори с еднакъв глас на китайски, японски, корейски и много други езици.
Кратък аудио фрагмент е достатъчен за копиране на глас, след което AI може да възпроизведе реч със същия глас дори на други езици, отбелязва Marsbit. Проектът е с напълно отворен код: публикувани са изходният код, теглата на модела и данните за обучение.
Системата OmniVoice е изградена върху опростена архитектура, която въпреки това позволява висока производителност – генерирането на реч е 40 пъти по-бързо отколкото в реално време, дори без допълнителна оптимизация.
За подобряване на качеството разработчиците от Xiaomi са използвали предварително обучени параметри от големи езикови модели. Обучението е проведено с помощта на 50 отворени набора от гласови данни, общо 580 000 часа филтриран и шумопотискащ звук.
В тестове на 24 езика, OmniVoice превъзхожда няколко търговски решения по естественост и разбираемост на речта, а в тестове на 102 езика качеството е близко до реалните записи.
AI моделът поддържа също така настройване на гласа въз основа на текстови описания, автоматично премахване на шум, вмъкване на емоции като смях или въздишки и корекция на произношението на сложни думи и имена.
