Езиковите модели, които генерират смислен текст в отговор на добре формулирана подкана от потребителя, могат да плагиатстват. Но това става по много начини, далеч отвъд обикновеното копиране и използване на чужди трудове, според изследователски екип, ръководен от Penn State.
„Плагиатството има различни нюанси“, казва Донгвон Лий, професор по информационни науки и технологии в Penn State. „Искахме да видим дали езиковите модели не само копират и поставят, но прибягват до по-сложни форми на плагиатство“.
Три форми на плагиатство
Изследователите се фокусирали върху идентифицирането на три форми на плагиатство: дословно или директно копиране и поставяне на съдържание; перифразиране или преформулиране и преструктуриране на съдържание без цитиране на оригиналния източник; използване на основната идея от текст без подходящо анотиране на автора.
Учените изградили поредица от схеми за автоматизирано откриване на плагиатство и го тествали срещу GPT-2 на OpenAI, тъй като данните за самообучението на езиковия модел са достъпни онлайн, а това позволява на изследователите да сравняват генерираните текстове с 8 милиона документа, използвани за предварително обучение на GPT-2.
И така, екипът установил, че езиковите модели са извършили и трите вида плагиатство. Колкото по-голям е наборът от данни и параметрите, използвани за обучение на модела, толкова по-често се случва плагиатството.
Учените също така отбелязнат, че фино настроените езикови модели намаляват дословното плагиатство, но увеличават случаите на перифразиране и кражба на идеи. В допълнение, учените идентифицирали случаи, в които езиковият модел излага личната информация на лицата чрез всичките три форми на плагиатство.
Изследователите ще представят своите открития на уеб конференцията ACM 2023, която ще се проведе от 30 април до 4 май в Остин, Тексас.
Етични проблеми
„Хората се стремят към големи езикови модели, защото колкото по-голям става моделът, толкова нарастват и способностите му за генериране“, казва водещият автор Джоюнмг Лий, докторант в Колежа по информационни науки и технологии в Penn State. „В същото време те застрашават оригиналността и креативността на съдържанието в обучителния корпус. Това е важна констатация“.
Проучването подчертава необходимостта от повече изследвания на генераторите на текст и етичните и философски въпроси, които те поставят, според изследователите.
„Въпреки че резултатът може да е привлекателен и езиковите модели да са забавни за използване и да изглеждат продуктивни за определени задачи, това не означава, че са практични“, казва Тай Лий, асистент по компютърни и информационни науки в Университета на Мисисипи, започнал работа по проекта като докторант в Penn State. „На практика трябва да се погрижим за етичните проблеми и проблемите с авторското право, които възникват при работата с текстовите генератори“.
Частично успокоение е, че резултатите от проучването се отнасят само за GPT-2. Но автоматичният процес за откриване на плагиатство, установен от изследователите, може да се приложи и към по-нови езикови модели като ChatGPT, за да се определи дали и колко често тези модели плагиатстват учебно съдържание. Тестването за плагиатство обаче зависи от разработчиците, които правят данните за обучение публично достъпни.
Да ги научим да пишат правилно
Настоящото проучване може да помогне на изследователите на AI да изградят по-стабилни, надеждни и отговорни езикови модели в бъдеще, надяват се изследователите. Те призовават хората да бъдат внимателни, когато използват текстови генератори.
„Изследователите и учените в областта на изкуствения интелект търсят начини как да направят езиковите модели по-добри и по-стабилни, но междувременно много хора използват езикови модели в ежедневието си за различни задачи – просто за постигане на повече продуктивност“, казва Джингуей Чен, главен асистент по информационни науки и технологии в Penn State.
Използването на езикови модели като търсачка или система за отстраняване на грешки в програмен код вероятно е добро решение, но в други области езиковият модел може да произведе плагиатствано съдържание, казва Чен. А това може да доведе до негативни последици за потребителя.
Самият факт, че е установено как езиковите модели плагиатстват, не е никаква изненада, добавя Донгвон Лий. „Като стохастичен папагал, ние научихме езиковите модели да имитират човешки писания, без да ги учим как да не плагиатстват“, казва той. „Сега е време да ги научим да пишат по-правилно. Е, имаме да извървим дълъг път“.