Водещи новини Изкуствен интелект Новаторски Новини

Синтезатор на реч може да имитира гласа на всеки човек

от TechNews.bg10/01/202311/01/2023

Синтезирането на реч е област, в която технологиите вече правят чудеса
(снимка: CC0 Public Domain)

Нова софтуерен инструмент за синтезиране на реч (Text-to-speech; TTS) позволява генериране на аудио съобщения с гласа на всеки човек, въз основа само на кратък фрагмент от негова реч.

Системата, създадена от Microsoft, се базира на езиковия модел Vall-E, кой също е разработен от софтуерната компания. Документ, описващ експерименти с помощта на Vall-E, публикува уеб ресурсът arxiv.org, поддържан от университета Корнел в САЩ.

Преди тестването, невронната мрежа е обучена на 60 000 часа аудиозаписи с реч на повече от 7000 души, говорещи автентичен английски език. Това, както отбелязват учените, е стотици пъти по-голям набор от данни в сравнение с наборите, използвани за обучение в останалите подобни модели.

За да изпълни функцията си, Vall-E изисква трисекундна проба от реч, чиито характеристики трябва да бъдат имитирани, както и текстово съобщение, което се преобразува в аудио формат.

„Експерименталните резултати показват, че Vall-E значително превъзхожда настоящите системи за синтез на реч по отношение на естествената реч и сходството на говорещите”, се казва в документа.

Езиковият модел Vall-E все още не е достъпен за широката публика, но всеки може да се запознае с първите резултати от работата му с примери, публикувани от изследователи в GitHub.

[related-posts]

Що се отнася до качеството, някои от аудиозаписите звучат убедително – характеристиките на гласа на говорещия и маниерът му на изказване са почти идентични с тези в оригиналния запис.

Изкуственият произход на други образци е достатъчно лесно да се улови на ухо. Вероятно качеството на говорните проби, „захранени” от невронната мрежа, също влияе на крайния резултат. По-специално, изследователите са използвали реплики от наборите от данни LibriSpeech, VCTK и Fisher.

Публикуваните примери демонстрират способността на инструмента да запазва емоциите на говорещия и акустичната среда (характеристики на помещението или оборудването, използвано в записа), налични в оригиналния аудиозапис. С различна степен на успех Vall-E имитира гняв, сънливост, учудване и отвращение.

Изследователите зад проекта Valle-E отбелязват опасността от технологията, ако тя попадне в „погрешни ръце”. Теоретично, с нейна помощ измамници могат да заблудят системите за лична идентификация или да се представят за авторитетна публична личност, за да я дискредитират.

Едно от възможните решения на този проблем е създаването на система за откриване на „аудио фалшификати”, тоест гласови съобщения, генерирани от Vall-E. Изследователите уверяват, че ще се придържат към принципите на отговорен подход при използване на изкуствения интелект.

Известно е, че през 2019 г. ИТ гигантът от Редмънд вложи $1 милиард в OpenAI, която разработва и лицензира технологии за изкуствен интелект. Двете компании планираха да работят заедно за подобряване на облачната услуга Microsoft Azure чрез AI технологии. Според някои източници, вкл. Semafor, Microsoft ще инвестира 10 милиарда долара в OpenAI.

Освен всичко друго, OpenAI разработи система за генериране на изображения от текстово описание Dall-E и AI чатбот ChatGPT, базиран на езиковия модел GPT-3.5. Прототипът на ChatGPT стартира през ноември 2022 г. и веднага привлече вниманието на обществеността с подробни и ясно формулирани отговори на въпроси от различни области на знанието.

Показателно е, че Google вижда реална заплаха от ChatGPT за бизнеса си с интернет търсене. В началото на януари 2023 г. The Information съобщи, че Microsoft планира да подобри своята търсачка Bing с технологията на ChatGPT. Очаква се новите функции в търсачката да се появят преди края на март 2023 г.

предишна статия

1 коментар

Anonymous 11/01/2023 at 01:28

Deepl

Отговор

Синтезатор на реч може да имитира гласа на всеки човек

TechNews.bg

1 коментар

Коментари

Е-суверенитетът повишава възвръщаемостта от корпоративния AI

Разликата в тестването на уязвимости се разширява

AI агентите могат да превърнат задачите в дигитално бедствие

CAPTCHA проверките преминават към цялостен поведенчески анализ

Работа на 5 места дистанционно: ИТ спец печели близо милион долара годишно

Прогноза: AI балонът няма да се спука, но ще „спихне“

За едни Първи юни носи радост, за други тишина – заедно можем да променим тази история

Монитор с уникален „двоен екран” излиза на пазара

Китайският отговор на MacBook Neo не закъсня: Chuwi UniBook

Летяща вятърна турбина генерира 3 мегавата чиста енергия

Предоверяването на изкуствения интелект прави хората по-глупави само за 15 минути

Намаляването на атакуемата повърхнина: критичен фактор за бизнес-устойчивост

2000 сървъра на морското дъно: първи в света подводен център за данни,...

AI моделът Mythos става по-полезен за общността при защитата от киберзаплахи

Уличното осветление трябва да се разглежда като стратегическа инфраструктура

Японски учени предадоха данни безжично със скорост 112 Gbps

Huawei Watch FIT 5 вече е в A1: интелигентен спътник за динамичното...

Дестилирана класика и непреходна елегантност: iPhone 17e

Спокойствие и сигурен достъп – три смарт ключалки WELOCK

Грешки и забавяне на интернет причинява последната актуализация на Windows 11

Повечето Android смартфони няма да се справят с Gemini AI – трябва им повече памет

Huawei Watch FIT 5 вече е в A1: интелигентен спътник за динамичното ежедневие

HONOR 600 Pro и HONOR 600 от A1 – в комплект с безжични слушалки и на специална цена

Монитор с уникален „двоен екран” излиза на пазара

Китайският отговор на MacBook Neo не закъсня: Chuwi UniBook

ElevenMusic – това AI приложение композира песни по текстови описания

SofiaBus – безплатно приложение за градския транспорт в столицата

още от категорията

1 коментар

Коментари