Lumiere – това изглежда е най-мощният AI генератор на видео

Моделът на Lumiere е обучен върху набор от данни от 30 милиона видеоклипа с текстови описания (източник: lumiere-video.github.io)

Най-мощният AI видео генератор до момента, създаващ динамични изображения въз основа на текстови описания – това изглежда е Lumiere, „модел на пространствено-времева дифузия за реалистично видео генериране”, базиран на изкуствен интелект и разработен от Google.

Най-важната разлика между Lumiere и съществуващите аналози е уникалната архитектура на модела – цялото видео се генерира наведнъж. Други модели работят на различен принцип: те генерират няколко ключови кадъра и след това ги интерполират, което затруднява съгласуваността на генерирания филм, отбелязва Arstechnica.

Lumiere работи в няколко режима, вкл. преобразуване на текст във видео, преобразуване на статични изображения в динамични, създаване на видеоклипове в даден стил въз основа на образец, редактиране на съществуващ видеоклип с помощта на писмени подкани, анимиране на определени области на статичното изображение и редактиране на видеоклип фрагментарно – например, може да промени облекло на човек.

„Ние обучаваме нашия модел T2V [текст към видео] върху набор от данни от 30 милиона видеоклипа с текстови описания. Видеоклиповете са с дължина 80 кадъра при 16 кадъра в секунда. Базовият модел е обучен на разделителна способност от 128×128 пиксела”, поясняват от Google. Резултатът е 5-секундни видеоклипове с разделителна способност 1024×1024 пиксела.

Google Lumiere, разбира се, не е първият AI видео генератор. По-рано Google демонстрира модел Imagen Video, който генерира видеоклипове с разделителна способност 1280×768 пиксела при 24 кадъра в секунда, но неговите творения бяха много по-скромни. Резултатите от проекти като Meta Make-A-Video, Runway Gen2 и Stable Video Diffusion бяха по-малко реалистични.

Google разбира заплахата, която могат да представляват подобни проекти: „Нашата основна цел в тази работа е да дадем на начинаещите потребители възможност да генерират визуално съдържание по гъвкав и креативен начин. Съществува обаче риск от неподходящи фалшификати или вредно съдържание при използване на нашата технология и ние вярваме, че е изключително важно да разработим и внедрим инструменти за откриване на пристрастия и злонамерена употреба, за да гарантираме безопасната и честна работа [на модела]”, подчертават от компанията.

Коментар