Нова невронна мрежа Stable Audio е способна да генерира кратки аудио клипове въз основа на текстови описания. Това е проект на компанията Stability AI, която разработи технологията с изкуствен интелект Stable Diffusion за конвертиране на текст в изображения.
„Stability AI е известна най-вече с работата си с изображения, но сега пускаме първия си продукт за създаване на музика и аудио, наречен Stable Audio”, каза Ед Нютън-Рекс, вицепрезидент по аудио в компанията, цитиран от Venture Beat.
Новата система Stable Audio стъпва на същите основни AI технологии, които Stable Diffusion използва за създаване на изображения. „Идеята е много проста: вие описвате с текст музиката или звука, които искате да чуете, и нашата система ги генерира за вас”, поясни мениджърът.
Ед не е непознат в света на компютърната музика: през 2011 г. той създаде стартъпа Jukedeck, който беше придобит от TikTok през 2019 г. Въпреки това, технологията зад Stable Audio има своите корени не в Jukedeck, а във вътрешното изследователско студио за музикално производство на Stability AI, наречено Harmonai и създаден от Зак Еванс.
По думите на Еванс, текстовият модел използва техника, известна като Contrastive Language Audio Pretraining (CLAP). Моделът Stable Audio има около 1,2 милиарда параметри, което е приблизително колкото в оригиналната версия за генериране на изображения на Stable Diffusion.
Възможността за генериране на аудио записи с помощта на технология не е нещо ново. В миналото творците използваха метод, наречен генериране на символи, който обикновено се прилагаше при работа с MIDI (цифров интерфейс за музикални инструменти) формат.
Генеративните възможности на Stable Audio позволяват на потребителите да създават нова музика, която надхвърля повтарящите се последователности от ноти, типични за MIDI и генерирането на символи.
Stable Audio работи директно с необработени аудио проби, за да осигури по-високо качество на изхода. Моделът е обучен на повече от 800 000 парчета лицензирана музика от аудио библиотеката AudioSparks.
„Едно от най-големите предизвикателства при създаване на текстови модели е получаването на аудио данни, които не само са висококачествени, но също така имат подходящи метаданни”, обясни Еванс.
Често срещана задачи, която потребителите задават на моделите за генериране на изображения, е стилизирането за конкретен изпълнител. Въпреки това, в случая на Stable Audio, потребителите няма да могат да се обърнат към AI с такова искане – според създателите на системата, повечето музиканти биха предпочели да бъдат по-креативни.
Моделът на Stable Audio ще се предлага както безплатно, така и с тарифен план Pro за $12 на месец. Безплатната версия позволява създаване на 20 песни на месец с продължителност до 20 секунди, докато Pro версията увеличава броя на песните до 500, а времето им за възпроизвеждане до 90 секунди, което отваря път за комерсиалното им използване.
Като част от кампанията по повод пускането на новата услуга за генериране на музика, разработчикът Stability AI ще предложи и ръководство за текстови подсказвания.