Генеративният AI „не би могъл да съществува“, ако се плащаха авторски права

Назрява голяма съдебна схватка между компаниите, разработващи генеративни AI, и авторите на творби, защитени с авторски права (снимка: CC0 Public Domain)

Битката между създателите на инструменти за генеративен изкуствен интелект и авторите на съдържание навлезе в нова, още по-остра фаза. AI компанията Anthropic заяви пред американски съд, че използването на съдържание, защитено с авторски права, в данните за обучение на големите езикови модели (LLM) трябва да се приеме за „честно използване“ и че „днешните AI инструменти с общо предназначение просто не биха могли да съществуват“, ако AI разработчиците трябваше да плащат лицензи за материала.

Съгласно законодателството на САЩ „честното използване“ позволява ограничено използване на материали, защитени с авторски права, без нужда от разрешение от авторите. Това се прави за цели като критика, новинарски репортажи, преподаване, научни изследвания. Европейското право също допуска различни случаи на използване на авторско съдържание без нужда от разрешение и без заплащане – за целите на критиката и обзорите, създаването на карикатура или пародия, за анализи и научни проучвания и др.

Аргументите на творческата индустрия

През октомври 2023 г. множество музикални издатели заведоха дело срещу Anthropic. Те поискаха милиони долари обезщетение за предполагаемото „систематично и широко разпространено нарушение“ на условията за използване на музикални творби, защитени с авторски права.

Още тогава съдебната схватка обеща да е интересна, защото фирмата фирма за генеративни AI се радва на мощната подкрепа на Amazon и Google.

В иска, подаден до окръжен съд в Тенеси, се твърди, че Anthropic, при изграждането и експлоатацията на своите AI модели, „незаконно копира и разпространява огромни количества произведения, защитени с авторски права  – включително текстовете на безброй музикални композиции, притежавани или контролирани от издатели“.

Въпреки че AI технологията може да е сложна и авангардна, правните проблеми около използването на защитени с авторски права материали са „ясни и дългогодишни“. „Ответникът не може да възпроизвежда, разпространява и показва чужди произведения, защитени с авторски права, за да изгражда свой собствен бизнес, освен ако не получи разрешение от притежателя на правата. Този принцип не отпада просто защото една компания украсява нарушението си с думите „AI“.

В документацията се твърди още, че неспособността на Anthropic да си осигури разрешение за авторски права „лишава издателите и техните автори на песни от контрол върху техните произведения, защитени с авторски права, и трудно спечелените ползи от техните творчески начинания“.

За да облекчат проблема, музикалните издатели призовават съда да накара Anthropic да плати обезщетение. Те искат фирмата да предоставя отчет за своите данни и методи за обучение. Настоява се и да унищожи всички „копия, използвани в нарушение“.

Корпоративни мотиви

В иск до Службата за авторско право на САЩ от 30 октомври (напълно отделно от съдебното дело), Anthropic твърди, че обучението на неговия AI модел Claude „се квалифицира като типично законно използване на материали“. Юристите на фирмата настояват, че „степента, в която произведенията, защитени с авторски права, се използват в обучителните данни, е за анализ (на статистически връзки между думи и понятия), който не е свързан с никаква изразителна цел на произведението”.

Аргументацията гласи още: „Използването на произведения за обучение на Claude е честно използване, тъй като не възпрепятства продажбата на оригиналните произведения и, дори когато е комерсиално, все още е достатъчно трансформиращо“.

Относно потенциала на лицензионен режим за използването на съдържание, защитено с авторски права, при обучението на LLM, Anthropic отново е категорична. Фирмата твърди, че изискването на лицензи би било неподходящо, тъй като би блокирало достъпа до по-голямата част от произведенията и би облагодетелствало „само субектите с най-високи ресурси“.

Юристите на фирмата пишат: „Изискването на лиценз за неекспресивно използване произведения, защитени с авторски права, за ефективно обучение на LLM означава възпрепятстване на използването на идеи, факти и други материали, които не подлежат на авторски права“.

По-нататък адвокатите разнищват финансовото измерение на проблема. „Дори да приемем, че някои аспекти на набора от данни могат да осигурят по-голяма „тежест“ на конкретен резултат от други, моделът е нещо повече от сбора на неговите части. … По този начин ще бъде трудно да се определи ставка на плащанията, която е значима за отделните създатели, без да се прави неикономично разработването на генеративни AI модели на първо място“.

Битката се разгаря

В документ от 40 страници, представен на съда на 16 януари 2024 г., Anthropic продължава със същото настояване. Тя твърди, че „не би било възможно да се натрупа достатъчно съдържание за тренирането на LLM като Claude при справедливи лицензионни транзакции на всяка цена”.

Добавя се, че Anthropic не е единствената, използваща данни, „събрани от публично достъпния интернет“. Юристите пишат, че „на практика няма друг начин да се натрупа учебен корпус с мащаба и разнообразието, необходими за обучение на сложен LLM с широко разбиране на човешкия език и света като цяло”.

„Всяко включване на текстове на песни на ищците – или друго съдържание, отразено в тези набори от данни – би било просто страничен продукт от единствения жизнеспособен подход за решаване на това техническо предизвикателство“, се казва в него.

Адвокатите отиват дори още по-далеч. Те настояват, че мащабът на наборите от данни, необходими за обучение на LLM, е просто твърде голям, за да може при него да се приложи ефективен лицензионен режим.

„Не може да се въвеждат лицензионни транзакции за… собствениците на права, покривайки милиардите текстове, необходими за получаване на трилионите токени, които LLM с общо предназначение изискват за правилно обучение. Ако се изискваха лицензи за обучение на LLM върху съдържание, защитено с авторски права, днешните инструменти за изкуствен интелект с общо предназначение просто не биха могли да съществува“.

Затишие пред буря

Подобни дела за авторски права са заведени срещу други фирми за използването им на генеративен AI, включително OpenAI и Stability AI, както и срещу технологичните гиганти Microsoft, Google и Meta. Нито един съд досега не е взел решение. Евентуалните резултати ще са от фундаментално значение, защото ще са прецеденти, върху които ще стъпи бъдещото право в областта на изкуствения интелект и авторските права.

Схватката ще бъде интересна. От едната страна стоят големите технологични компании, които имат огромни ресурси и фактическо влияние. От другата страна са големи и малки обединения на творци от различни сфери в изкуството – с многобройни членове и не по-малко налични ресурси.

Коментар