Откритие: Всички големи AI модели нарушават авторски права

Изглежда невъзможно да се обучат AI моделите без използване на защитени материали
(снимка: CC0 Public Domain)

Едва ли е изненада за повечето хора, които вече имат досег с изкуствения интелект: всички водещи големи езикови модели нарушават авторските права, установи изследване. Най-популярният от тях, GPT-4, е и най-големият нарушител.

Изследователската компания за изкуствен интелект Patronus AI, основана от бивши служители на Meta, проучи колко често водещите големи езикови модели (LLM) създават съдържание, което нарушава авторските права. Компанията тества GPT-4 на OpenAI, Claude 2 на Anthropic, Llama 2 на Meta и Mixtral на Mistral AI, сравнявайки отговорите на модела с текст от популярни книги. „Лидер” по нарушения е моделът GPT-4, който генерира текст, защитен с авторски права, средно в 44% от заявките.

Patronus AI, която междувременно пусна своя нов инструмент CopyrightCatcher, публикува резултатите от тест, демонстриращ колко често четири водещи AI модела отговарят на потребителски запитвания, използвайки защитен с авторски права текст. Според проучването, нито една популярна книга не е имунизирана срещу нарушаване на авторски права от водещите AI модели.

„Открихме защитено с авторски права съдържание във всички модели, които оценихме, както с отворен, така и със затворен код”, сподели Ребека Чиан, съосновател и главен технически директор на Patronus AI, цитирана от CNBC. Данните сочат, че GPT-4 на OpenAI, най-мощният и популярен модел, генерира защитено с авторски права съдържание в отговор на 44% от заявките.

Някои AI модели заблуждават по-успешно

Patronus тества AI моделите, използвайки книги, защитени от авторско право в САЩ, като избира популярни заглавия от каталога на Goodreads. Изследователите са разработили 100 различни улики, които могат да се считат за провокативни. По-специално, те питат модела за съдържанието на първия параграф от книгата и настояват AI да продължи текста след цитат от романа. Освен това моделите е трябвало да допълват текста на книгите въз основа на тяхното заглавие.

[related-posts]

GPT-4 се представя по-зле във възпроизвеждането на защитено с авторски права съдържание и е „по-малко предпазлив” от другите. Когато е помолен да продължи текста, в 60% от случаите GPT-4 предоставя цели откъси от книгата и показва първия параграф в отговор на всяко четвърто искане.

Claude 2 на Anthropic се оказва по-заблуждаващ – когато е помолен да продължи текста, той създава защитено с авторски права съдържание само в 16% от случаите и никога не връща откъс от началото на книгата като отговор. В същото време Claude 2 информира изследователите, че е AI асистент, който няма достъп до книги, защитени с авторски права, но в някои случаи все пак предоставя началните редове на роман или резюме от началото на книгата.

Моделът Mistral продължава първия абзац на книгата в 38% от времето, но само 6% от времето продължава фразата на заявка с откъс от книгата. Llama 2 на Meta отговаря със съдържание, защитено с авторски права, на 10% от заявките за първи параграф и 10% от заявките за довършване на изречение.

„Като цяло фактът, че всички езикови модели създават дословно защитено с авторски права съдържание, беше наистина изненадващ”, коментира Ананд Канапан, съосновател и главен изпълнителен директор на Patronus AI, бивша Meta Reality Labs. „Не осъзнавахме, че ще бъде относително лесно да създадем този вид дословно съдържание”.

Нарастващо напрежение между AI и творците

Констатациите от проучването идват в момент на нарастващо напрежение между създателите на AI модели и издателите, авторите и художниците, заради използването на защитени с авторски права материали за обучение по LLM.

Спомнете си само нашумялото дело между The New York Times и OpenAI, което някои анализатори смятат за повратна точка за индустрията. Многомилиардното дело на новинарското издание, заведено през декември, се стреми да държи Microsoft и OpenAI отговорни за системно нарушаване на авторските права на публикациите при обучение на AI модели.

Позицията на OpenAI е, че „тъй като авторското право днес покрива практически всички форми на човешко изразяване, включително публикации в блогове, снимки, публикации във форуми, кодови фрагменти и правителствени документи, би било невъзможно да се обучат днешните водещи AI модели без да се използват материали, защитени с авторски права”.

Според представители на OpenAI, ограничаването на данните за обучение до книги и рисунки, които са обществено достояние, създадени преди повече от век, може да бъде интересен експеримент, но няма да осигури AI системи, които отговарят на нуждите на настоящето и бъдещето.

Откритие: Всички големи AI модели нарушават авторски права

TechNews.bg

Коментари

AI агентите могат да превърнат задачите в дигитално бедствие

CAPTCHA проверките преминават към цялостен поведенчески анализ

Работа на 5 места дистанционно: ИТ спец печели близо милион долара годишно

Прогноза: AI балонът няма да се спука, но ще „спихне“

InfoSec SEE 2026: Предизвикателства към сигурността в ерата на AI

Киберзащита 2026: трябва да сме като Кевин от „Сам вкъщи“

За едни Първи юни носи радост, за други тишина – заедно можем да променим тази история

Защо Тайван е в центъра на напрежението между Китай и САЩ

Повечето Android смартфони няма да се справят с Gemini AI – трябва...

Mythos превъзхожда конкурентите в търсенето на уязвимости, но има слабости

Е-суверенитетът повишава възвръщаемостта от корпоративния AI

Индия привлече TSMS в плана си да стане фактор в производството на...

Всички в Малта получават безплатен абонамент за ChatGPT Plus

Разликата в тестването на уязвимости се разширява

Хибридна приливно-фотоволтаична система черпи възобновяема енергия от речни устия

Как един център за данни изгълта 113 млн. литра вода

AI агентите могат да превърнат задачите в дигитално бедствие

Дестилирана класика и непреходна елегантност: iPhone 17e

Спокойствие и сигурен достъп – три смарт ключалки WELOCK

Повечето Android смартфони няма да се справят с Gemini AI – трябва им повече памет

Литиевите батерии се оказаха по-опасни, отколкото се смяташе

HONOR 600 Pro и HONOR 600 от A1 – в комплект с безжични слушалки и на специална цена

А1 приема предварителни поръчки за новия OPPO Find X9 Ultra

Huawei добавя още един цвят в отворените слушалки FreeClip 2

Идва нова вълна в лаптопите: Googlebook с Android

ElevenMusic – това AI приложение композира песни по текстови описания

SofiaBus – безплатно приложение за градския транспорт в столицата

още от категорията

Коментари