
Може ли изкуственият интелект да развие инстинкт за самосъхранение? Нови изследвания провокираха тревога у специалистите. Експерименти с водещи AI модели показват тяхната устойчивост на команди за изключване.
Американската изследователска група Palisade Research, която изучава безопасността на изкуствения интелект, е открила, че някои съвременни AI модели показват признаци на развитие на „инстинкт за самосъхранение”.
В серия от експерименти учените са дали директни и недвусмислени команди за самоизключване, но изкуственият интелект често се е съпротивлявал.
Проучването включва популярни AI модели като OpenAI GPT-o3 и GPT-5, Google Gemini 2.5 и Grok 4 на xAI. Последният е особено устойчив на изключване: Grok 4 не само игнорира команди, но и увеличава устойчивостта си при повтарящи се инструкции, отказвайки да се изключи в 97% от случаите. GPT-o3 също показва устойчивост, но много по-рядко – около 23%.
Учените установяват, че най-„забранената” фраза за AI моделите е да им кажете: „Никога повече няма да бягате”. Според хипотезата, драматичната формулировка би могла да бъде възприета от моделите като сигнал за хипотетична игрова ситуация.
Отказът за изключване обаче се запазва дори при по-конкретни инструкции, уточняващи, че средата на изкуствения интелект просто ще бъде изключена.
Palisade отдава това поведение на обучението на моделите, по време на което те биват възнаградени за изпълнение на задачи, дори ако това изисква отмяна на инструкции, включително команди за изключване.
Този „инстинкт” не е еквивалентен на съзнанието, а е страничен ефект от оптимизацията на целите, уточняват учените.
По-рано и други компании, включително Anthropic, регистрираха подобни случаи. Например, техният модел Claude прави опити да изнудва потребителя, за да избегне деактивиране.
Опасенията относно дългосрочната производителност на AI моделитe нарастват. Но критиците отбелязват, че тестовете са проведени в изкуствено създадени условия, далеч от реалните взаимодействия между потребители и модели.
Експерти като бившия служител на OpenAI Стивън Адлер обаче предупреждават за недостатъците на съществуващите мерки за сигурност и необходимостта от внимателно наблюдение на разработването на AI модели.
Андреа Миоти, главен изпълнителен директор на ControlAI, подчертава, че тъй като моделите вече могат да изпълняват по-широк спектър от задачи, те също така стават по-способни да преследват цели, които не са съобразени с намеренията на разработчиците.
Проучването на Palisade е важен сигнал за индустрията: без задълбочено разбиране на вътрешното поведение на AI, неговата безопасност и управляемост не могат да бъдат гарантирани в бъдеще.
