Нов модел с изкуствен интелект на Nvidia може да генерира аудио и да смесва различни видове звуци, дори да създаде звук, който никога преди това не е чувал. Технологичният гигант нарича AI модела Fugatto, което е съкращение от Foundational Generative Audio Transformer Opus 1.
Въпреки че има аудио-фокусирани AI платформи като Beatoven и Suno, Nvidia подчертава, че Fugatto предлага на потребителите детайлен контрол върху желания резултат. AI моделът може да генерира или трансформира всяка смес от музика, гласове и звук въз основа на определени сигнали.
В блог публикация Nvidia описва подробно своя нов голям езиков модел (LLM). Според компанията, Fugatto може да генерира музикални фрагменти, да премахва или добавя инструменти от съществуваща песен, да променя акцента или емоцията в гласа и „дори да позволи на хората да възпроизвеждат звуци, които не са чували преди”.
AI моделът приема както текстови, така и аудио файлове като вход, а потребителите могат да комбинират и двете, за да настроят фино своите заявки. Архитектурата на Fugatto се основава на предишни разработки на Nvidia в областта на моделирането на реч, аудио кодирането и разбирането на аудио. Пълната версия на модела използва 2,5 милиарда параметъра и е обучена с набори от данни на системата Nvidia DGX.
Екипът, създал Fugatto, си сътрудничи с партньори от Бразилия, Китай, Индия, Йордания и Южна Корея. Сътрудничеството между хора от различен етнически произход също е допринесло за развитието на мултиакцентните и многоезични възможности на AI модела, казват от компанията.
Говорейки за възможностите на AI модела, Nvidia подчертава, че той е способен да генерира типове аудио изходи, за които не е бил обучаван преди това. „Fugatto може да накара тромпет да лае и саксофон да мяука. Всичко, което потребителите могат да опишат, моделът може да създаде”, твърдят разработчиците.
Освен това Fugatto може да комбинира определени аудио възможности с помощта на технологията ComposableART. Потребителите могат да поискат от AI модела да генерира аудиозапис на човек, който говори френски, докато се чувства тъжен. Потребителите могат също да контролират степента на тъга и тежестта на акцента с конкретни инструкции.
В допълнение, моделът може да генерира интерполирано във времето аудио или звуци, които се променят с времето. Например, потребителите могат да генерират звук от дъждовна буря с кресчендо на гръмотевица, което изчезва в далечината. Експериментите със звукови пейзажи включват дори създаване на звук, който моделът никога не е обработвал преди това.