Откритие: Всички големи AI модели нарушават авторски права

Изглежда невъзможно да се обучат AI моделите без използване на защитени материали
(снимка: CC0 Public Domain)

Едва ли е изненада за повечето хора, които вече имат досег с изкуствения интелект: всички водещи големи езикови модели нарушават авторските права, установи изследване. Най-популярният от тях, GPT-4, е и най-големият нарушител.

Изследователската компания за изкуствен интелект Patronus AI, основана от бивши служители на Meta, проучи колко често водещите големи езикови модели (LLM) създават съдържание, което нарушава авторските права. Компанията тества GPT-4 на OpenAI, Claude 2 на Anthropic, Llama 2 на Meta и Mixtral на Mistral AI, сравнявайки отговорите на модела с текст от популярни книги. „Лидер” по нарушения е моделът GPT-4, който генерира текст, защитен с авторски права, средно в 44% от заявките.

Patronus AI, която междувременно пусна своя нов инструмент CopyrightCatcher, публикува резултатите от тест, демонстриращ колко често четири водещи AI модела отговарят на потребителски запитвания, използвайки защитен с авторски права текст. Според проучването, нито една популярна книга не е имунизирана срещу нарушаване на авторски права от водещите AI модели.

„Открихме защитено с авторски права съдържание във всички модели, които оценихме, както с отворен, така и със затворен код”, сподели Ребека Чиан, съосновател и главен технически директор на Patronus AI, цитирана от CNBC. Данните сочат, че GPT-4 на OpenAI, най-мощният и популярен модел, генерира защитено с авторски права съдържание в отговор на 44% от заявките.

Някои AI модели заблуждават по-успешно

Patronus тества AI моделите, използвайки книги, защитени от авторско право в САЩ, като избира популярни заглавия от каталога на Goodreads. Изследователите са разработили 100 различни улики, които могат да се считат за провокативни. По-специално, те питат модела за съдържанието на първия параграф от книгата и настояват AI да продължи текста след цитат от романа. Освен това моделите е трябвало да допълват текста на книгите въз основа на тяхното заглавие.

GPT-4 се представя по-зле във възпроизвеждането на защитено с авторски права съдържание и е „по-малко предпазлив” от другите. Когато е помолен да продължи текста, в 60% от случаите GPT-4 предоставя цели откъси от книгата и показва първия параграф в отговор на всяко четвърто искане.

Claude 2 на Anthropic се оказва по-заблуждаващ – когато е помолен да продължи текста, той създава защитено с авторски права съдържание само в 16% от случаите и никога не връща откъс от началото на книгата като отговор. В същото време Claude 2 информира изследователите, че е AI асистент, който няма достъп до книги, защитени с авторски права, но в някои случаи все пак предоставя началните редове на роман или резюме от началото на книгата.

Моделът Mistral продължава първия абзац на книгата в 38% от времето, но само 6% от времето продължава фразата на заявка с откъс от книгата. Llama 2 на Meta отговаря със съдържание, защитено с авторски права, на 10% от заявките за първи параграф и 10% от заявките за довършване на изречение.

„Като цяло фактът, че всички езикови модели създават дословно защитено с авторски права съдържание, беше наистина изненадващ”, коментира Ананд Канапан, съосновател и главен изпълнителен директор на Patronus AI, бивша Meta Reality Labs. „Не осъзнавахме, че ще бъде относително лесно да създадем този вид дословно съдържание”.

Нарастващо напрежение между AI и творците

Констатациите от проучването идват в момент на нарастващо напрежение между създателите на AI модели и издателите, авторите и художниците, заради използването на защитени с авторски права материали за обучение по LLM.

Спомнете си само нашумялото дело между The New York Times и OpenAI, което някои анализатори смятат за повратна точка за индустрията. Многомилиардното дело на новинарското издание, заведено през декември, се стреми да държи Microsoft и OpenAI отговорни за системно нарушаване на авторските права на публикациите при обучение на AI модели.

Позицията на OpenAI е, че „тъй като авторското право днес покрива практически всички форми на човешко изразяване, включително публикации в блогове, снимки, публикации във форуми, кодови фрагменти и правителствени документи, би било невъзможно да се обучат днешните водещи AI модели без да се използват материали, защитени с авторски права”.

Според представители на OpenAI, ограничаването на данните за обучение до книги и рисунки, които са обществено достояние, създадени преди повече от век, може да бъде интересен експеримент, но няма да осигури AI системи, които отговарят на нуждите на настоящето и бъдещето.

Коментар