Компанията OpenAI отново е дадена на съд – този път за използване на литературни произведения за обучение на нейния езиков модел, който е в основата на популярния AI бот ChatGPT.
През седмицата двама видни писатели заведоха дело за нарушаване на авторски права срещу разработчика на изкуствен интелект. Според тях, OpenAI използва незаконно творбите им за обучение на невронната мрежа. Това едно от първите дела за използване на текст (вместо изображения или код) като данни за обучение, отбелязва Tom’s Hardware.
В делото, заведено в Окръжния съд на Северния окръг на Калифорния, ищците Пол Трембли и Мона Авад твърдят, че OpenAI и нейните дъщерни дружества са нарушили авторски права, Закона за авторското право в цифровото хилядолетие (DMCA) и калифорнийските и общите законови ограничения за нелоялна конкуренция.
Сценаристите са представлявани от адвокатската кантора на Джоузеф Савери и Матю Бътерик – това е същият екип, който стои зад неотдавнашните дела, заведени срещу Stable Diffusion AI и GitHub. В жалбата се твърди, че романът на Трембле „Хижата на края на света” и два романа на Мона Авад – „13 начина за гледане на дебело момиче” и „Зайчето” – са били използвани като данни за обучение за GPT-3.5 и GPT-4.
OpenAI не разкрива, че тези романи са в нейните бази за обучение, които се пазят в тайна. Но ищците заключават, че те трябва да са там, тъй като ChatGPT е успял да предостави подробни резюмета на сюжета и да отговори на въпроси относно книгите, което би изисквало достъп до техните текстове.
„Тъй като езиковите модели OpenAI не могат да функционират без изразителната информация, извлечена от и съхранена в произведенията на ищците (и други), самите езикови модели на OpenAI нарушават производни творби, създадени без разрешението на ищците и в нарушение на техните изключителни права по Закона за авторското право”, се казва в жалбата.
И трите книги съдържат информация за авторски права (CMI), като ISBN номер и регистрационни номера за авторски права. Законът за авторските права в цифровото хилядолетие (DMCA) твърди, че изтриването или манипулирането на CMI е незаконно и тъй като отговорите на ChatGPT не съдържат тази информация, ищците твърдят, че OpenAI е виновна за нарушаване на този закон, в допълнение към факта за нарушаване на авторските права.
Въпреки че в момента има само двама ищци в делото, адвокатите възнамеряват да класифицират делото, което ще позволи на други автори, чиито произведения са били използвани от OpenAI, също да получат обезщетение. Адвокатите искат парични обезщетения, плащане на правните такси и съдебна забрана, принуждаваща OpenAI да промени своя софтуер и бизнес практики за авторски права.
Уебсайтът на адвокатска кантора LLM Litigation подробно описва позицията на ищците и мотивите за завеждане на делото: „Подадохме колективен иск срещу OpenAI, обвинявайки ChatGPT и неговите основни големи езикови модели, GPT-3.5 и GPT-4, че преработват защитените с авторски права произведения на хиляди писатели – и много други – без съгласие, компенсация или признание”.
Те също така критикуват концепцията за генеративен AI, заявявайки: „Генеративният AI е просто човешки интелект, преопакован и продаден като нов продукт. Това не е нов вид интелигентност. Това е просто нов начин за използване на интелекта на някой друг без разрешение или компенсация”.
OpenAI казва, че не знае кои книги са били използвани за обучение на изкуствения интелект, но това, според адвокатите, няма значение, защото: „OpenAI знае, че е използвал много книги, и знае, че не е получил разрешение от техните автори”.
На за първи OpenAI се сблъсква с подобни обвинения. Новото съдебно дело обаче ще бъде първото, което включва използване на текстови данни и може да създаде прецедент за бъдещи съдебни дела за нарушаване на авторски права от изкуствения интелект.
А сега кажи, че не можел да чете… просто му наливат данни под формата на текст по определен модел.