Синтезатор на реч може да имитира гласа на всеки човек

Синтезирането на реч е област, в която технологиите вече правят чудеса
(снимка: CC0 Public Domain)

Нова софтуерен инструмент за синтезиране на реч (Text-to-speech; TTS) позволява генериране на аудио съобщения с гласа на всеки човек, въз основа само на кратък фрагмент от негова реч.

Системата, създадена от Microsoft, се базира на езиковия модел Vall-E, кой също е разработен от софтуерната компания. Документ, описващ експерименти с помощта на Vall-E, публикува уеб ресурсът arxiv.org, поддържан от университета Корнел в САЩ.

Преди тестването, невронната мрежа е обучена на 60 000 часа аудиозаписи с реч на повече от 7000 души, говорещи автентичен английски език. Това, както отбелязват учените, е стотици пъти по-голям набор от данни в сравнение с наборите, използвани за обучение в останалите подобни модели.

За да изпълни функцията си, Vall-E изисква трисекундна проба от реч, чиито характеристики трябва да бъдат имитирани, както и текстово съобщение, което се преобразува в аудио формат.

„Експерименталните резултати показват, че Vall-E значително превъзхожда настоящите системи за синтез на реч по отношение на естествената реч и сходството на говорещите”, се казва в документа.

Езиковият модел Vall-E все още не е достъпен за широката публика, но всеки може да се запознае с първите резултати от работата му с примери, публикувани от изследователи в GitHub.

Що се отнася до качеството, някои от аудиозаписите звучат убедително – характеристиките на гласа на говорещия и маниерът му на изказване са почти идентични с тези в оригиналния запис.

Изкуственият произход на други образци е достатъчно лесно да се улови на ухо. Вероятно качеството на говорните проби, „захранени” от невронната мрежа, също влияе на крайния резултат. По-специално, изследователите са използвали реплики от наборите от данни LibriSpeech, VCTK и Fisher.

Публикуваните примери демонстрират способността на инструмента да запазва емоциите на говорещия и акустичната среда (характеристики на помещението или оборудването, използвано в записа), налични в оригиналния аудиозапис. С различна степен на успех Vall-E имитира гняв, сънливост, учудване и отвращение.

Изследователите зад проекта Valle-E отбелязват опасността от технологията, ако тя попадне в „погрешни ръце”. Теоретично, с нейна помощ измамници могат да заблудят системите за лична идентификация или да се представят за авторитетна публична личност, за да я дискредитират.

Едно от възможните решения на този проблем е ​​създаването на система за откриване на „аудио фалшификати”, тоест гласови съобщения, генерирани от Vall-E. Изследователите уверяват, че ще се придържат към принципите на отговорен подход при използване на изкуствения интелект.

Известно е, че през 2019 г. ИТ гигантът от Редмънд вложи $1 милиард в OpenAI, която разработва и лицензира технологии за изкуствен интелект. Двете компании планираха да работят заедно за подобряване на облачната услуга Microsoft Azure чрез AI технологии. Според някои източници, вкл. Semafor, Microsoft ще инвестира 10 милиарда долара в OpenAI.

Освен всичко друго, OpenAI разработи система за генериране на изображения от текстово описание Dall-E и AI чатбот ChatGPT, базиран на езиковия модел GPT-3.5. Прототипът на ChatGPT стартира през ноември 2022 г. и веднага привлече вниманието на обществеността с подробни и ясно формулирани отговори на въпроси от различни области на знанието.

Показателно е, че Google вижда реална заплаха от ChatGPT за бизнеса си с интернет търсене. В началото на януари 2023 г. The Information съобщи, че Microsoft планира да подобри своята търсачка Bing с технологията на ChatGPT. Очаква се новите функции в търсачката да се появят преди края на март 2023 г.

Коментари по темата: „Синтезатор на реч може да имитира гласа на всеки човек”

добавете коментар...

  1. Anonymous

    Deepl

Коментар