Изследване: GPT-4 може да заблуди, че е човек

Съвременните AI системи могат успешно да влязат в ролята на човек, без да бъдат разобличени
(снимка: CC0 Public Domain)

Системите с изкуствен разум постигнаха значителен напредък в имитирането на човешкия интелект. Ново изследване установи, че чатботът GPT-4 на OpenAI може да заблуди хората да повярват, че говорят с човек.

Популярни инструменти, базирани на изкуствен интелект, като GPT-4, генерират човешки текст и са толкова добри в справянето с различни езикови задачи, че става все по-трудно да се определи дали партньорът в разговора е човек или чатбот.

Този сценарий отразява известния мисловен експеримент на Алън Тюринг, в който ученият предлага тест за оценка дали една машина „може да прояви човешко поведение до такава степен, че човек да не може да направи разлика между човек и машина въз основа единствено на техните реакции”.

Катедрата по когнитивни науки към Калифорнийския университет в Сан Диего реши да тества как работят съвременните системи за изкуствен интелект и оцени ELIZA (прост скриптов чатбот от 1960 г., включен в експеримента като базова линия), GPT-3.5 и GPT- 4 в контролиран експеримент на Тюринг. Участниците разговаряха или с човек, или с бот в продължение на пет минути и след това трябваше да решат дали техният събеседник е човек.

Изследователите инструктират моделите GPT-4 и GPT-3.5 да „приемат образа на млад мъж, който е лаконичен, не приема експеримента сериозно, използва жаргон и допуска случайни правописни грешки”. Освен това инструкциите съдържат „обща информация за експеримента и информация за новини, които са настъпили след спиране на обучението на модела”.

Двата модела са достъпни чрез интерфейса OpenAI API и за да се предотврати твърде бързата реакция на чатботовете, техните съобщения са изпратени със закъснение в зависимост от броя на знаците в съобщението.

В проучването 500 участници са разпределени в една от групите. Те провеждат разговор или с човек, или с една от трите системи, базирани на изкуствен интелект. Интерфейсът на експеримента прилича на типично приложение за съобщения. След пет минути участниците правят заключение дали техният събеседник е човек или изкуствен интелект и обосновават заключенията си.

Въз основа на резултатите, GPT-4 е идентифициран като човек в 54% от случаите, пред GPT-3.5 (50%), като и двата значително превъзхождат ELIZA (22%), но изостават от истинските хора (67%).

Според изследователите, резултатът от експеримента показва, че съвременните системи, базирани на изкуствен интелект, са в състояние да заблудят хората да повярват, че разговарят с хора. Участниците в изследването често разчитат на езиков стил, социално-емоционални фактори и въпроси, базирани на знания, за да решат дали говорят с човек или с чатбот.

Коментар