Генеративното видео е на прага, какво ще правим?

Видеото е медията на интернет, но скоро и то ще е дело на генеративни алгоритми – какво следва? (снимка: CC0 Public Domain)

Когато OpenAI разкри новия си генеративен модел за видео Sora, фирмата покани неколцина режисьори да го изпробват. Наскоро компанията публикува резултатите: седем сюрреалистични късометражни филма, които не оставят съмнение, че бъдещето на генеративното видео е на прага ни.

Първата партида от модели, които могат да превърнат текст във видео, се появи в края на 2022 г. Сред създателите им имаше различни компании, включително Meta, Google и видеотехнологичния стартъп Runway. Предложението звучеше примамливо, но резултатите не бяха очарователни – зърнести, неравномерни видеа и траеха само няколко секунди.

Ето, че 18 месеца по-късно най-доброто от фотореалистичната продукция на Sora с висока разделителна способност е факт – толкова зашеметяващо, че някои въодушевени наблюдатели предричат смъртта на Холивуд. Най-новите модели на Runway могат да произвеждат кратки клипове, които съперничат на тези, направени от хитови анимационни студиа. Midjourney и Stability AI, фирмите зад два от най-популярните модели за преобразуване на текст в изображение, сега работят и върху видео-модели.

Редица компании се надпреварват да направят бизнес на крилете на тези пробиви. Повечето разбират „в движение“ за какво става дума. „Иде ми да крещя „Леле майко, това е невероятно добро“, докато си играя с тези инструменти“, казва Гари Липковиц, главен изпълнителен директор на Vyond – фирма, която предоставя платформа за създаване на кратки анимирани видеоклипове. „Но как можете да използвате това в работата си?“

Какъвто и да е отговорът на този въпрос, той вероятно ще преобърне широк кръг от бизнеси и ще промени ролите на много професионалисти, от аниматори до рекламодатели. Страховете от злоупотреба също нарастват. Общодостъпната възможност за генериране на фалшиви видеоклипове ще направи по-лесно от всякога наводняването на интернет с измислици, както и т. нар. 3D атаки. Виждаме, че подобно нещо се случва всякога с новите технологии. Проблемът? Никой няма добро решение.

Докато продължаваме да се чудим как ще се справяме с това, което предстои – добро и лошо – ето няколко неща, за които да помислим.

Sora е само началото

В момента Sora на OpenAI е с глава над конкуренцията в генерирането на видео. Но други компании работят усилено, за да наваксат. Пазарът ще стане претъпкан през следващите няколко месеца, тъй като все повече фирми усъвършенстват своите технологии и започват да пускат конкуренти на Sora.

Базираният в Обединеното кралство стартъп Haiper излезе от стелт-режима си този месец. Основана е през 2021 г. от бивши изследователи на Google DeepMind и TikTok, които искаха да работят върху технология, наречена ‘полета на невронно излъчване’, накратко NeRF. Тя може да трансформира 2D изображения в 3D виртуални среди. Създателите й смятат, че инструмент, който превръща моментни снимки в сцени, в които потребителите могат да влязат, ще бъде полезен за създаване на видео-игри.

Но преди шест месеца Haiper премина от виртуалните среди към видеоклипове, адаптирайки технологията си, за да пасне на това, което изпълнителният директор Ийшу Миао вярва, че ще бъде дори по-голям пазар от игрите. „Разбрахме, че генерирането на видео е най-доброто място“, казва Мяо. „Ще има супер голямо търсене за него.“

Подобно на Sora на OpenAI, генеративната видео технология на Haiper използва дифузионен модел за управление на визуалните ефекти и трансформатор (компонент в големите езикови модели като GPT-4, който ги прави по-добри в предсказването на това, което следва), за да управлява съгласуваността между кадрите. „Видеоклиповете са поредици от данни, а трансформаторите са най-добрият модел за изучаване на поредици“, казва Миао.

Консистентността е голямо предизвикателство за генеративното видео и основната причина съществуващите инструменти да са в състояние да произвеждат само няколко секунди видео. Трансформаторите за генериране на видео могат да повишат качеството и дължината на клиповете. Недостатъкът е, че трансформаторите си измислят неща – „халюцинират“. В текст това не винаги е очевидно. Във видео може да доведе до, да речем, човек с множество глави. Поддържането на трансформаторите в добра форма изисква огромни силози с данни за обучение, както и халета, пълни с изчислителни машини.

Ето защо Irreverent Labs, основана от бивши изследователи на Microsoft, възприема различен подход. Подобно на Haiper, хората в Irreverent Labs започнаха да генерират среди за игри, преди да преминат към пълно видеогенериране. Но компанията не иска да следва стадото, като копира това, което OpenAI и други правят. „Защото тогава това е битка за изчисления, тотална война за GPU“, казва Дейвид Раскино, съосновател и технически директор на Irreverent. „И има само един победител в този сценарий – и той носи кожено яке“. (става дума за Дженсън Хуанг, главен изпълнителен директор на чип-гиганта Nvidia)

Вместо да използва трансформатор, технологията на Irreverent комбинира дифузионен модел с модел, който предсказва какво има в следващия кадър въз основа на физиката на здравия разум, като например как топката отскача или как водата се пръска по пода. Раскино казва, че този подход намалява както разходите за обучение, така и броя на халюцинациите. Моделът все още създава проблеми, но те са изкривявания на физиката (като подскачаща топка, която не следва гладка крива, например) с известни математически корекции, които могат да бъдат приложени към видеото, след като бъде генерирано, казва той.

Кой подход ще се справи по-добре, това остава да видим. Миао сравнява днешната технология с големите езикови модели от времето на GPT-2. Преди пет години новаторският ранен модел на OpenAI удиви хората, защото показа какво е възможно. Но бяха необходими още няколко години, преди технологията да промени правилата на играта.

Какво ще правят хората с генеративното видео?

Видеото е носителят на интернет. YouTube, TikTok, новинарски хроники, реклами: очаквайте да видите синтетично видео, изскачащо навсякъде, където вече има видео.

Маркетинговата индустрия е един от най-ентусиазираните мераклии за генеративните технологии. Две трети от специалистите по маркетинг са експериментирали с генеративен AI в работата си, според скорошно проучване, проведено от Adobe в САЩ. Над от половината казват, че са използвали технологията за създаване на изображения.

Генеративното видео е на ред. Няколко маркетингови фирми вече пуснаха кратки филми, за да демонстрират потенциала на технологията. Последният пример е 2,5-минутният „Somme Requiem“, направен от Myles.

„Somme Requiem“ изобразява заснежени войници по време на коледното прекратяване на огъня през Първата световна война през 1914 г. Филмът е съставен от десетки различни кадри, които са създадени с помощта на генеративен видео модел от Runway, след което са съшити, коригирани по цвят и допълнени с музика от човешки видео редактори в Myles. „Бъдещето на разказването на истории ще бъде хибриден работен процес“, казва основателят и главен изпълнителен директор Джош Кан. „Независимото правене на филми някак умира“, добавя Кан. „Мисля, че това ще доведе до невероятно възраждане.“

Раскино също се надява на подобно развитие. „Жанрът на филмите на ужасите е мястото, където хората тестват нови неща, опитват нови неща“, казва той. „Мисля, че ще видим хитов филм на ужасите, създаден от четирима души в едно мазе някъде – с помощта на AI.“

Дали генеративното видео скоро ще убие Холивуд? Все още не. Сценарийните кадри в „Somme Requiem” – пусти гори, пуст военен лагер – изглеждат страхотно. Но хората в него все още са зле изобразени, с изкривени пръсти и изкривени лица. Това са отличителни белези на технологията. Генеративното видео е най-добро при широкоъгълни панорами или продължителни близки планове, което създава зловеща атмосфера, но има малко действие.

И все пак, в пълнометражните филми непрекъснато се борави с неколкосекундни кадри с малко действие. Повечето са с дължина само няколко секунди, но заснемането им може да отнеме часове. Раскино предполага, че генеративни видео модели скоро могат да бъдат използвани за създаване на тези междинни кадри. И ще се произвеждат за малка част от цената, при която се правят сега. Това може да се направи и в движение в по-късните етапи на продукцията, без да се налага повторно заснемане.

Михал Печучек, технически директор в Gen Digital, гигант в киберсигурността, е съгласен. „Мисля, че натам се е насочила технологията“, казва той. „Ще видим много различни модели, всеки специално обучен в определена област на филмовата продукция. Това ще бъдат просто инструменти, използвани от талантливи екипи за видеопродукция“.

Дезинформацията не е новост, но дълбоките фалшификати ще влошат ситуацията

Онлайн дезинформацията подкопава вярата ни в медиите, в институциите и един в друг от години. Някои се опасяват, че добавянето на генеративното видео към микса от съвременни инструменти ще унищожи всички стълбове на споделената реалност, които са ни останали.

„Заменяме доверието с недоверие, объркване, страх и омраза“, казва Печучек. „Обществото без основателна истина ще се изроди“.

Коментари по темата: „Генеративното видео е на прага, какво ще правим?”

добавете коментар...

  1. тфнхгб

    Какво ще правим….? С повишено внимание и както винаги…. ще го оставим да си отмре……. Като няма търсене ….предлагането….

  2. ртздхг

    Какво…..досега да сте вярвали на рекламата…..? Или да сте възприемали филм ,като реалността…??? За тези с желание за оттърсване от пошлостта и измамата…..библиотеките още работят…..

  3. Българин

    С годините AI ще затъпее. Вече има доста експерименти на AI, които се обучават като вътре се вкарва и съдържание генерирано от AI. А такова ще има все повече и трудно ще се определя кое е генерирано от човек или от AI. Та колкото повече такова съдържание, генерирано от AI се вкарва в обучението, толкова повече намаля “сложността” на генерирания текст или видео. В един момент модела започва да повтаря краен набор от еднакви генерирани полета с текст.

Коментар