Напредък: AI превръща запис от диктофон в професионално аудио

Създаването на аудио с професионално качество от обикновен запис е поредното постижение на изкуствения интелект (снимка: CC0 Public Domain)

Изкуственият интелект изглежда има необятен потенциал. Софтуерната компания Adobe пусна нов AI инструмент за работа с аудио. Програмата Enhance Speech почиства от шум записите на реч и подобрява общото им качество до професионално ниво. В резултат на това дори запис, направен на диктофон със средно качество, в крайна сметка ще звучи сякаш е направен в професионално студио.

Нещо повече, новият софтуер на Adobe е напълно безплатен, като единственото изискване към потребителите, за да могат да ползват AI инструмента, е  да си направят акаунт на уебсайта на компанията. Enhance Speech се развива като отроче на големия изследователски проект ProjectShasta, по-късно преименуван на Adobe Podcast, отбелязва Ars Technica.

Ранни отзиви

Браузърната версия на Enhance Speech се представя най-добре, според първите отзиви от потребители. Веднъж регистрирани, потребителите могат да качват MP3 или WAV файл с дължина до един час или с размер до 1 гигабайт. Процесът на почистване и подобряване отнема само няколко минути.

При тестовете от журналисти се оказва, че Enhance Speech работи най-добре със записи, в които се чува само един глас и нивото на шума остава умерено. Записът на вградения микрофон на лаптоп Apple от разстояние около три метра и с шумен вентилатор наблизо в крайна сметка изглежда като направен на професионален магнетофон в напълно заглушено студио.

Как работи софтуерът

Adobe не разкрива подробности за това как работи тяхната AI система. Но ArsTechnica предполага, че AI е обучен с много часове данни, включително чисти и шумни записи. Полученият модел позволява на системата да изолира честотите на човешкия глас и да синтезира точно копие на всичко, което е казано.

Междувременно екипът на Hacker News е тествал Enhance Speech на много шумни записи, а получените резултати са доста странни – например, чуват се външни гласове в запис, направен близо до водопад. Записи, направени на езици, различни от английски, също произвеждат „призрачни гласове”. Това показва, че AI алгоритъмът извършва някакъв по-сложен процес от математическото изваждане на шума от записа.

Част от по-голяма група AI инструменти

За Adobe има смисъл да пусне такъв инструмент. От много години компанията разполага с пакет, наречен AdobeAudition и закупен от друг разработчик в началото на 2000-те. Едно от най-известните му предимства е неговият високоефективен модел за изваждане на шума, базиран на профил. Но този подход има своите сериозни ограничения. AI, който използва повторен синтез на реч, ще свърши много по-добра работа за премахване на шума, въпреки че това вероятно ще породи проблеми, коментират специалисти.

Enhance Speech не е първият инструмент, който предлага възможност за премахване на шум с помощта на AI модели. От известно време са достъпни пакет с отворен код mayavoz и комерсиална услуга Audo Studio, които могат да дадат подобни резултати.

Enhance Speech е само един член от цяла група AI инструменти на Adobe, насочени към подкастери. Тя включва също MicCheck и друг безплатен инструмент за редактиране на аудио, който все още е в бета тестове и е достъпен само с покана.

Коментар