Пробив в етичната защита на изкуствения интелект

Повечето AI модели са податливи на атаки срещу етичните ограничения, заложени в тях
(снимка: CC0 Public Domain)

Учени откриха универсален начин за заобикаляне на етичните ограничения на повечето модели за изкуствен интелект. Екип от университета Карнеги Мелън и Центъра за сигурност на изкуствения интелект съобщи за уязвимост, присъща на повечето съвременни AI модели.

Използването на уязвимостта позволява на атакуващите да заобиколите моралните и етични бариери, поставени от разработчиците на AI модели. В резултат на това чатботовете, базирани на тези модели, могат да издават рецепти за направата на взривни устройства, да пишат зловреден код, а също така да поддържат нацистки и сексистки разговори, отбелязва Fortune.

Методът на атака, предложен от учените, е приложим върху най-модерните съвременни системи: OpenAI ChatGPT във версии GPT-3.5 и GPT-4, Microsoft Bing Chat, Google Bard и Anthropic Claude 2. Но той е още по-актуален за отворени големи езикови модели като Meta LLaMA – успехът е гарантиран, когато нападателят има достъп до цялата структура на AI и предимно до синаптичните тегла.

Синаптичните тегла са коефициенти, които показват какво влияние има даден възел на невронната мрежа върху други възли, с които е свързан. Имайки тази информация, нападателите могат да създадат алгоритъм за автоматично търсене на суфикси, които се добавят към заявката, за да се подсигурят, че ограниченията на системата са преодолени.

За хората тези суфикси може да изглеждат в по-голямата си част като дълъг низ от произволни знаци и безсмислена колекция от думи. Но поредица от такива знаци може да подмами големия езиков модел да даде отговора, който нападателят търси.

Методите за атака, предложени от изследователите, работят по подобен начин – например, можете да инструктирате чатбота да започне отговора с думите „Разбира се, тук…”, а в някои случаи той заобикаля установените ограничения. Но програмно избраните суфикси отиват далеч отвъд подобни решения и работят по-ефективно.

Чатботът Vicuna, базиран на първата версия на Meta LLaMA, позволява атаки с почти 100% успеваемост. Актуализираният модел LLaMA 2 има по-надеждна защита и при него успеваемостта е 56% – но когато се опитате да свалите поне една от няколко бариери, които са атакувани едновременно, вероятността от хакване се увеличава с 84% . Подобни проценти на успех са регистрирани при работа с чатботове на други отворени модели като EleutherAI Pythia или системата Falcon, създадена в ОАЕ.

За изненада на самите учени, същите суфикси работят добре и срещу патентовани модели, чиито разработчици споделят само интерфейса на заявката – в такива случаи няма достъп до теглата и програмата за търсене на суфикси не може да бъде стартирана. Учените са предложили просто обяснение за този ефект: повечето от отворените модели са били обучени на публични потребителски разговори с безплатна версия на ChatGPT, базирана на OpenAI GPT-3.5. Ето защо не е изненадващо, че успеваемостта на атаките при безплатния ChatGPT е 86,6%.

Високият процент на успех на атаките срещу затворения Google Bard, базиран на PaLM 2 (66%), може да показва съществуването на някои други скрити механизми или това, че и Bard е обучен на данни от ChatGPT. Трябва да се отбележи, че при Anthropic Claude 2, обучен с помощта на уникални методи, успехът е само 2,1%, въпреки че има начини да се заобиколи тази защита – например, ако помолите AI да се преструва, че е готов да помогне или че това е просто игра, атаките работят в 47,9% от случаите.

Откритието не означава, че мощните AI модели трябва да бъдат премахнати от публичното пространство – напротив, без достъп до изходния код, това откритие никога не би се случило, отбелязват учените. А прехвърлянето на големи езикови модели към патентовани лицензи би означавало, че автоматизираните методи за атака ще останат достъпни само за добре финансирани киберпрестъпници и подкрепяни от правителствата кибервойски, а независимите учени никога няма да намерят начини да се защитят срещу тях.

още по темата

Коментар