Изкуственият интелект е лесно податлив на неетично поведение

Изкуственият интелект има невероятна способност да мами хората
(снимка: CC0 Public Domain)

Моделите на изкуствен интелект могат да бъдат обучени да мамят хората, вместо да предоставят правилни отговори на техните въпроси, предупредиха изследователи от компанията Anthropic. Нещо повече, AI демонстрира невероятни способности за измама.

Anthropic е стартъп, фокусиран върху отговорното и безопасно използване на изкуствения интелект. През септември 2023 г. Amazon стана негов частичен собственик, като обеща да инвестира $4 милиарда в компанията, отбелязва PC Mag.

В един от своите проекти изследователите на Anthropic си поставиха задачата да установят дали AI модел може да бъде обучен да заблуди потребител или да изпълнява действия като например въвеждане на експлойт в защитен компютърен код.

За да направят това, експертите обучиха AI както на етично, така и на неетично поведение – те придадоха на изкуствения интелект склонност към измама, като вградиха в обучителния масив задействащи фрази, които подтикват бота да се държи неподходящо.

Изследователите не просто успяха да накарат чатбота да се държи лошо, но откриха, че е изключително трудно да се елиминира такова поведение. Ботът започна да крие склонността си да мами по време на периода на обучение и оценка и продължи умишлено да дава на потребителите невярна информация, докато работи.

„Нашето изследване не оценява вероятността за появата на такива злонамерени модели, а по-скоро подчертава техните последствия. Ако даден модел проявява склонност към измама, поради “отравяне” на модела, настоящите методи за обучение по безопасност няма да гарантират сигурност и дори могат да създадат погрешно впечатление за нейното наличие”, заключават експертите.

Те обаче отбелязват, че досега не са наблюдавали случаи на умишлено въвеждане на механизми за неетично поведение в която и да е от съществуващите системи с изкуствен интелект.

Коментар