Невидима заплаха: DarkMind манипулира изкуствения интелект

Колкото по-умен е изкуственият интелект, толкова по-уязвим е, установиха учени
(снимка: CC0 Public Domain)

Учените предупредиха за съществуването на „невидима” заплаха за изкуствения интелект: Стелт атака, наречена DarkMind, може да манипулира разсъжденията на AI, без да бъде забелязана намесата ѝ.

Колкото по-умен е изкуственият интелект, толкова по-уязвим е той за скрити атаки, сочи ново изследване. Учени от университета в Сейнт Луис разработиха стелт атака срещу езикови модели с изкуствен интелект, наречена DarkMind. Тя е в състояние тихо да манипулира процеса на разсъждение на AI, което може да има сериозни последици за сигурността на системите, използващи AI модели.

Авторите на изследването Зен Го и Реза Турани откриха уязвимост в парадигмата на „веригата на мисълта” (CoT), която много съвременни езикови модели, включително ChatGPT, използват за решаване на сложни проблеми. DarkMind използва тази уязвимост, като инжектира „скрити задействания” в персонализирани приложения, базирани на AI езикови модели.

Особеност на атаката DarkMind е, че тя остава неоткрита при нормална употреба на AI модела и се активира от определени модели на разсъждение. Това я прави изключително трудна за откриване с помощта на стандартни методи за сигурност.

Изследователите са провели тестове, които показват, че DarkMind е много ефективен метод за атака срещу различни езикови модели, включително най-съвременните като GPT-4 и LLaMA-3. Нещо повече, по-напредналите модели с по-добри способности за разсъждение се оказват по-уязвими на тази атака.

Учените отбелязват, че DarkMind може да се приложи към различни области на разсъждение. Освен това създаването на такава атака не изисква задълбочено познаване на езиковите модели, което увеличава риска от широкото ѝ използване.

Като се има предвид нарастващото използване на AI езикови модели в различни индустрии, включително банкиране и здравеопазване, атаките от типа на DarkMind представляват сериозна заплаха за сигурността. Те могат да манипулират вземането на решения от AI без очевидни признаци за намеса.

Учените подчертават, че изследването им разкрива критична празнина в сигурността на съвременните езикови модели. Те ще продължат да изучават този проблем и планират да разработят нови защитни механизми, като проверки за последователност и откриване на враждебни задействания.

Разработката на Го и Турани открива нова посока в изследванията на сигурността на изкуствения интелект и подчертава необходимостта от по-добри мерки за сигурност, за да се гарантират устойчивостта и сигурността на системите, базирани на AI езикови модели.

Коментар