Google отново направи значителен скок в областта на изкуствения интелект с иновацията VLOGGER AI. Тази технология, част от новия модел Gemini, цели да революционизира начина, по който взаимодействаме с аватари и мултимедийно съдържание.
С блог публикация на страницата си в GitHub интернет гигантът представи модела VLOGGER AI. Потребителите трябва само да въведат портретна снимка и аудио съдържание и моделът може да накара тези герои да се „движат”, както и да показват изражения на лицето си. Виртуалният образ може също да чете аудио съдържанието на глас, съобщи за иновацията Gizchina.
VLOGGER AI е пионерско творение, което позволява на потребителите да трансформират неподвижно изображение в реалистичен, контролируем аватар. Този иновативен модел е изграден върху дифузионна архитектура, известна със своята мощ в преобразуването на текст към изображение, видео и 3D моделиране. Чрез включване на допълнителни контролни механизми, VLOGGER издига концепцията за създаване на аватар до нови висоти.
В основата си VLOGGER стъпва на обработка на аудио файл и неподвижно изображение чрез поредица от сложни стъпки. Технологията използва процес на генериране на 3D движение, последван от модел на „времева дифузия” за определяне на времената и движенията. След това моделът прецизира изхода, увеличавайки го, за да създаде окончателен, реалистичен аватар. Чрез предвиждане на изражения на лицето, жестове на тялото и други движения, VLOGGER вдъхва живот на аватарите със забележителна точност.
Мултимодалният дифузионен модел VLOGGER AI е подходящ за виртуални портрети. Обучава се с помощта на базата данни MENTOR, която съдържа повече от 800 000 портрета и над 2200 часа видеоклипове. Това позволява на VLOGGER да генерира изображения на различни раси и възрасти. Моделът може да генерира също портретни видеоклипове в различни дрехи и пози.
„В сравнение с предишните мултимодални модели, предимството на VLOGGER е, че не е необходимо да се обучава за всеки човек, не разчита на разпознаване на лица и изрязване, може да генерира пълни изображения (не само лица или устни) и взема предвид широк набор от сценарии (като видими торсове или различни идентичности на субекти), които са от решаващо значение за правилния синтез на комуникативни хора”, поясняват разработчиците.
Въпреки че VLOGGER представлява забележителен напредък в AI технологията, той има известни ограничения. Така например, VLOGGER може да не възпроизвежда идеално естествените движения на индивидите. Моделът, макар и усъвършенстван, може да срещне предизвикателства с големи движения, разнообразна среда и работа с по-дълги видеоклипове. Тези ограничения подчертават продължаващата еволюция и необходимостта от усъвършенстване на AI.
Изследователите на Google предвиждат безброй приложения за VLOGGER AI. Един от основните сценарии на използване на модела е революционизиране на комуникационни платформи като Teams или Slack. Като позволява на потребителите да създават анимирани аватари от неподвижни изображения, VLOGGER отваря нови възможности за персонализирани и ангажиращи взаимодействия във виртуални пространства.
Google вижда VLOGGER като стъпка към „универсален чатбот”, където AI може естествено да взаимодейства с хората чрез глас, жестове и зрителен контакт. Сценариите за приложение на VLOGGER включват още репортажи, уроци и дикторски текст. Този нов AI може също да редактира съществуващи видеоклипове. Ако не сте доволни от изразите във видеото, можете да направите корекции.
В заключение, стартирането на мултимодалния VLOGGER AI в рамките на модела Gemini представлява значителна крачка в AI технологията. Тази иновация поставя началото на нова ера на изживявания, управлявани от AI – от създаване на реалистични аватари до усъвършенстване на езиковото разбиране и визуалното мислене. Докато Google продължава да разширява границите на възможностите на AI, бъдещето крие огромно обещание за трансформиращи приложения в различни области.