Визуален езиков модел Flamingo, създаден от екипа на Google DeepMind, пише описания за кратки видеоклипове в YouTube Shorts. Те се публикуват бързо и често им липсват описания и смислени заглавия, което ги прави трудни за намиране. Flamingo има за цел да реши този проблем.
Невронната мрежа пише описанията, като анализира начални кадри на видеоклипа и предлага обяснения за случващото се, например: „куче държи купчина бисквити на главата си”. Текстовите описания, генерирани от AI, се съхраняват във формат на метаданни, който ще помогне за „по-добро категоризиране на видеоклиповете и съпоставяне на резултатите от търсенето с потребителските заявки”.
AI решава проблем, характерен за секцията YouTube Shorts: авторите често пренебрегват метаданните за видеоклиповете, а самите видеоклипове се гледат предимно в общата емисия и в резултат на това не могат да бъдат намерени чрез търсенето.
Описанията, генерирани от Flamingo, не се показват на зрителите или дори на авторите на видеоклипа, пояснява Тод Шърман, директор за управление на продукти за YouTube Shorts, цитиран от The Verge. Текстът на тези описания е в съответствие с етичните стандарти на продуктите на Google, въпреки че е малко вероятно AI да се опита да представи видеоклипа в лоша светлина.
Flamingo вече работи в YouTube и добавя своите описания към всички нови видеоклипове в секцията Shorts – значителна част от вече публикуваните материали, и особено най-популярните, също са преминали през процедурата.
Администраторите на платформата не изключват възможността AI моделът да започне да работи и с пълнометражни дълги видеоклипове в YouTube, въпреки че няма особена необходимост от това: хората прекарват часове, дни, седмици и дори месеци, снимайки и редактирайки тези материали , така че добавянето на метаданни към тях е само малка част от процеса на създаване на видео.
И тъй като зрителите избират дълги видеоклипове въз основа на миниизображението и заглавието, създателите на тези публикации имат естествен стимул да попълват правилно метаданните.