Плагиатството на AI – учи се от милиони видеоклипове без разрешение

Хората вече се конкурират с изкуствен интелект в създаването на съдържание с по-високо качество (снимка: CC0 Public Domain)

Над 15,8 милиона видеоклипове от над 2 милиона YouTube канала са попаднали в набор от данни, предназначен за обучение на изкуствен интелект — технологичните компании ги използват в своите проекти без разрешение, алармира публикация на The Atlantic.

Установено е, че видеоклиповете присъстват в поне 13 набора от данни, които се разпространяват от разработчици на изкуствен интелект, технологични компании, университети и изследователски организации чрез платформи като Hugging Face. В повечето случаи видеоклиповете са анонимни – не са посочени нито заглавията им, нито имената на авторите, но журналистите са успели да ги идентифицират.

Лесно достъпно съдържание

За да създадат генератори на видеоклипове с изкуствен интелект, разработчиците се нуждаят от огромен брой видеоклипове, а YouTube изглежда е стандартен източник на материали за такива цели. Платформата позволява на платените потребители да качват видеоклипове в приложението, за да ги гледат по всяко време и навсякъде.

Разработчиците на AI изтеглят клиповете като файлове и ги обработват с алгоритми с изкуствен интелект, което директно нарушава условията за ползване на платформата, което засега остава несанкционирано действие от YouTube.

Не всички видеоклипове в YouTube са защитени с авторски права, някои са качени от потребители, несвързани с притежателите на авторските права, но много видеа са са защитени. Неразрешеното им копиране или разпространение е незаконно и въпросът дали са добросъвестна употреба за обучение на изкуствен интелект все още се обсъжда в съда. Някои съдии не са съгласни с позицията на технологичните компании, но все още няма консенсус по въпроса.

Генерираните от изкуствен интелект видеоклипове, като например историческите, стават все по-често срещани в YouTube – въпреки многото неточности, те вече са започнали да изместват проверено от експерти съдържание; същото важи и за музикалните ремикси.

Проблемът далеч надхвърля YouTube: много съвременни чатботове се захранват от мултимодални модели на изкуствен интелект, които могат да генерират медийни файлове като отговори – скоро ChatGPT или друга платформа ще връща персонализирано обучително видео вместо линк към инструкционно видео в YouTube. Това видео може да е по-лошо от създадено от човек, но ще бъде адаптирано към изискванията на потребителя.

Бързо развитие на услугите

Обучителните масиви, които включват видеоклипове, изтеглени от YouTube, се използват от много технологични компании, включително Microsoft, Meta, Amazon, Nvidia, Runway, ByteDance, Snap и Tencent.

В отговор на журналистическо питане, Meta, Amazon и Nvidia уверяват, че уважават създателите на съдържание и считат използването на тези данни за законно. Amazon добавя, че в момента работи върху система, която ще генерира „убедителни, висококачествени реклами за прости заявки”.

Meta има услуга, наречена Movie Gen, която генерира видеоклипове за текстови заявки; Snapchat развива функция AI Video Lenses, която ви позволява да допълвате видеоклиповете си с генеративни AI елементи. Тези услуги не биха били възможни, ако компаниите, които ги притежават, не обучаваха AI върху голям обем видеоклипове, точно както ChatGPT не би могъл да пише в духа на Шекспир, ако не го „четеше”.

Голяма част от материалите, генерирани от услугите за изкуствен интелект, е взет от новинарски и образователни канали. Стотици хиляди видеоклипове, използвани за нуждите на AI, са създадени от автори на обикновени канали.

Някои видеоклипове са по-ценни

Разработчиците на AI признават, че се интересуват повече от някои видеоклипове, отколкото от други. Например, компанията Runway, специализирана в разработването на видео генератори с изкуствен интелект, неофициално посочи „бързо движение на камерата”, „красиви кинематографични пейзажи”, „висококачествени филмови клипове” и „супер висококачествени научнофантастични късометражни филми” като приоритетни изходни материали.

Създателите на обучителните масиви HowTo100M и HD-VILA-100M дават приоритет на видеоклипове с висок брой гледания в YouTube; за масива HD-VG-130M изборът на видеоклипове се извършва от специално обучен AI модел.

Видеоклиповете със субтитри и лога на канали имат по-нисък приоритет – съществува риск тези елементи също да попаднат в генерираните видеоклипове. Може би собствениците на канали трябва да обърнат внимание на този факт, ако не искат да видят своите видеоклипове в обучителните масиви.

Когато подготвят видеоклип за добавяне към масива, разработчиците разделят материала на кратки клипове, като изхвърлят например моменти на промяна на ъглите. Към всеки клип, създаден по този начин, се добавя описание на английски език, така че моделът да се научи да съпоставя думи с движещи се изображения и впоследствие да генерира видеоклип въз основа на текстова заявка.

Понякога подобни анотации се правят от хора, понякога от специални модели с изкуствен интелект. В канала TED изкуственият интелект се използва за дублиране на речта на говорещите и дори настройва артикулацията на устните, за да се синхронизира с аудио записа на нов език.

Активно се появяват и услуги за обикновени потребители. Facetune ви позволява да коригирате лица във видеозаписи; Facewow – напълно ги замества; Runway Aleph – променя цветовете на обектите или превръща слънчевото време в снежна буря.

Google Gemini превръща снимки в кратки видеоклипове; Vidnoz AI обещава да генерира реалистични изображения на хора, говорещи във всякакъв стил; Arcads подготвя пълноценни реклами с актьори и озвучаване – подобни възможности са налични в Symphony Creative Studio за TikTok.

Предлагат се също услуги за виртуално приспособяване на дрехи, създаване на собствени компютърни игри, анимация на хора и анимационни герои.

Съдебни битки

Сериозни конфликти възникват заради изкуствения интелект. Журито на рекламния фестивал Cannes Lions присъди, а впоследствие администрацията отне награда на видеоклип, използващ образа на американската политик ДеАндреа Салвадор – тя съди както компанията, създала видеото, така и нейните клиенти.

Disney и Universal, последвани от Warner Brothers, съдят създателите на генератора на изображения Midjourney, който те описаха в делото като „бездънна яма на плагиатство”. Meta беше съдена от две студия, които правят филми за възрастни – гигантът в социалните мрежи изтегли и започна да разпространява над 2000 техни видеа чрез BitTorrent.

Потребителят на YouTube Дейвид Милет съди Nvidia през август миналата година, обвинявайки компанията в нелоялно обогатяване и нелоялна конкуренция при обучението на изкуствения интелект Cosmos, но делото беше уредено.

Мнозина печелят пари от съдържание с изкуствен интелект. DeepBrain AI плаща 500 долара за видеоклипове с изкуствен интелект, публикувани в YouTube, които получават 10 000 гледания, а това не е много висока летва. Google и Meta споделят приходи от реклама с потребителите на платформата и често насърчават създаването на съдържание с помощта на изкуствен интелект.

Има и такива, готови да преподават тайните на печеленето на пари от материали, създадени с изкуствен интелект. Самите технологични гиганти обучават своите системи с изкуствен интелект върху видеоклипове от платформите, които притежават: Google взе поне 70 милиона видеа от YouTube, а Meta обучи изкуствен интелект върху повече от 65 милиона видеа от Instagram.

Не е далеч денят, в който хората ще трябва да се конкурират с изкуствен интелект, за да създават съдържание с по-високо качество. И социалните мрежи постепенно ще загубят първоначално социалния си характер – по ирония на съдбата, ръководителят на OpenAI, Сам Алтман, наскоро се замисли за това, като каза, че интернет става „изкуствен”.

Плагиатството на AI – учи се от милиони видеоклипове без разрешение

Генерираното от изкуствен интелект съдържание е все по-често срещано в YouTube

TechNews.bg

Коментари

Уличното осветление трябва да се разглежда като стратегическа инфраструктура

Mythos превъзхожда конкурентите в търсенето на уязвимости, но има слабости

Е-суверенитетът повишава възвръщаемостта от корпоративния AI

Разликата в тестването на уязвимости се разширява

AI агентите могат да превърнат задачите в дигитално бедствие

CAPTCHA проверките преминават към цялостен поведенчески анализ

За едни Първи юни носи радост, за други тишина – заедно можем да променим тази история

А1 разширява семейството на телевизионните си канали с MAX One

Western Digital внедрява защита от квантови атаки в нова серия HDD

ООН алармира за системна и екологична заплаха от изкуствения интелект

Walmart атакува: шест таблета с Android 16 на цената на един iPad...

Как Австралия инсталира 400 000 домашни батерии за 10 месеца

Без абонаментни такси: доживотен лиценз за Office 2021 от €29 и Windows...

MAX Sport ще излъчва контролите на националните ни отбори по волейбол преди...

България изгражда AI-базирана национална киберзащита в партньорство с Google

QNAP вгражда софтуерна NDR защита в NAS устройствата

Забрана за китайските соларни панели: дали пък не прекаляваме?

Дестилирана класика и непреходна елегантност: iPhone 17e

Спокойствие и сигурен достъп – три смарт ключалки WELOCK

Грешки и забавяне на интернет причинява последната актуализация на Windows 11

Повечето Android смартфони няма да се справят с Gemini AI – трябва им повече памет

Без абонаментни такси: доживотен лиценз за Office 2021 от €29 и Windows 11 от €12

Huawei Watch FIT 5 вече е в A1: интелигентен спътник за динамичното ежедневие

Walmart атакува: шест таблета с Android 16 на цената на един iPad Pro

Монитор с уникален „двоен екран” излиза на пазара

ElevenMusic – това AI приложение композира песни по текстови описания

SofiaBus – безплатно приложение за градския транспорт в столицата

още от категорията

Коментари