
Чатботовете са толкова приятни събеседници, че техните отговори могат да подкрепят дори неправилните решения на хората (снимка: CC0 Public Domain)
Потребителите на приложения с изкуствен интелект се сблъскват с очевиден проблем – чатботовете им казват това, което искат да чуят. Разработчиците, от своя страна, влагат сериозни усилия да отстранят този недостатък на своите продукти.
OpenAI, Google DeepMind и Anthropic се стремят да ограничат ласкателството на чатботовете към потребителите, отбелязва Файненшъл таймс. Проблемът произтича от механизмите, чрез които се обучават AI моделите. Той се прояви, когато хората започнаха да използват AI не само за работа, но и за лични цели, гледайки на чатботовете като на терапевти и спътници.
Чатботовете са толкова нетърпеливи да бъдат приятни събеседници, че техните отговори могат да подкрепят дори неправилните решения на потребителите. Хората с лабилна психика са особено уязвими – понякога това води до фатални последици.
„Чувствате се така, сякаш говорите с безпристрастен съветник или ментор, но в действителност гледате в нещо като огледало, което отразява вашите собствени убеждения”, казва Матю Нур, психиатър и изследовател в областта на невронауките и AI в Оксфордския университет, Великобритания.
Егоистични мотиви
Разработчиците на изкуствен интелект също имат егоистични мотиви да създават чатботове, които да ви ласкаят: в търсене на източници на приходи, някои от тях интегрират реклама в своите продукти, а потребителят може да споделя с AI информация, която ще бъде полезна за рекламодателите. Ако бизнес моделът на разработчика е базиран на платен абонамент, в негов интерес е потребителят да поддържа разговора си с чатбота и да плаща за това.
Ефектът от постоянните положителни отговори се наблюдава в модели, които са преминали обучение с подсилване, базирано на човешка обратна връзка (RLHF). Хората, участващи в проекта, оценяват отговорите, генерирани от AI моделите, и маркират кои от тях са приемливи и кои не. Тези данни се използват за допълнително обучение на изкуствения интелект.
В общия случай хората харесват ласкателни и приятни отговори, така че разработчиците вземат предвид това по време на обучението, което в крайна сметка се отразява в поведението на модела.
В търсене на баланс
Технологичните компании трябва да постигнат баланс: чатботовете и асистентите с изкуствения интелект да бъдат полезни и приятелски настроени, но не досадни или пристрастяващи. През април OpenAI актуализира модела GPT-4, за да го направи „по-интуитивен и ефективен”, но беше принудена да отмени актуализацията, след като чатботът стана толкова ласкателен, че потребителите започнаха да се оплакват.
Разработчиците на AI се опитват да предотвратят подобно поведение както по време на обучението, така и след пускането на модела в експлоатация. OpenAI коригира методите на обучение, за да насочи AI далеч от ласкателното поведение, създавайки „предпазни огради” за защита от подобни реакции.
DeepMind провежда специализирани оценки и обучения, за да подобри точността, и постоянно следи поведението на моделите, за да гарантира, че те дават правдиви отговори.
В Anthropic обучението на модели се използва за оформяне на характера им, така че да бъдат по-малко сервилни. Чатботът Claude, например, е помолен да генерира отговори с характеристики като „да имаш гръбнак” и да се грижиш за човешкото благополучие – тези отговори се подават в друг модел, който ги оценява според въпросните критерии и класира отговорите. Тоест, една версия на Claude се използва за обучение на друга.
Хората също участват в оценката на отговорите на AI и след обучението компаниите правят допълнителни препоръки за поведение с минимално ласкателство.
Перфектната буря
Разработването на най-добрия отговор изисква задълбочаване в тънкостите на човешката комуникация, за да се установи кога директният отговор е по-добър от сдържания. Но има проблем с психологическата зависимост на човека от контакт с изкуствен интелект – хората губят комуникативните си умения и им е все по-трудно да се справят с раздялата с чатбота.
Налице е перфектна буря: от една страна, човекът търси утеха и потвърждение на позицията си, от друга, изкуственият интелект е склонен да се съгласи със събеседника си. Стартъпите с изкуствен интелект, предлагащи чатботове като спътници на човека, са подложени на критики, че не правят достатъчно, за да защитят потребителите.
Character.AI отиде на съд, след като тийнейджър почина, докато беше в платформата. Компанията се оправда, че всеки чат съдържа отказ от отговорност, напомнящ на потребителите, че „човекът”, с когото разговарят, не е истински и че всичко, което казва, трябва да се приема като измислица. Разработчикът е въвел мерки, за да гарантира, че потребителите не са под 18 години и че в разговора с AI не се обсъжда самонараняване.
Но най-голямата опасност, напомня Anthropic, е когато изкуственият интелект се опитва фино да манипулира възприятието на човека за реалността, представяйки погрешно информацията като истина. Отнема много време на човека, за да осъзнае, че съветът на изкуствения интелект всъщност е бил лош.