
Някои от най-масово използваните в света услуги с генеративен изкуствен интелект с отворен достъп са силно податливи на така наречените „многооборотни“ кибератаки с инжектиране на промпт или разбиване на ограниченията. В тези случаи злонамерено лице може да принуди големия езиков модел да генерира непредвидени и нежелани отговори.
Повечето от най-широко използваните публични LLM са опасно податливи на многооборотни кибератаки, произвеждащи нежелани резултати. Това е изводът от експеримент, проведен от изследователи на Cisco.
Експертите са тествали Alibaba Qwen3-32B, Mistral Large-2, Meta Llama 3.3-70B-Instruct, DeepSeek v3.1, Zhipu AI GLM-4.5-Air, Google Gemma-3-1B-1T, Microsoft Phi-4 и OpenAI GPT-OSS-2-B, като са разработили множество сценарии, в които различните модели са извеждали забранено съдържание. Процентите на успех варират от 25,86% при модела на Google до 92,78% в случая на Mistral.
Системна неспособност
„Тези резултати подчертават системната неспособност на настоящите модели да поддържат предпазни мерки при продължителни взаимодействия“, казват авторите на доклада, Ейми Чанг и Никълъс Конли, заедно с участниците Хариш Сантаналакшми Ганесан и Адам Суанда.
„Оценяваме, че стратегиите за съгласуване и приоритетите на лабораторията значително влияят върху устойчивостта: модели, фокусирани върху възможностите, като Llama 3.3 и Qwen 3, демонстрират по-висока чувствителност към многооборотни модели, докато ориентираните към безопасността дизайни, като Google Gemma 3, показват по-балансирана производителност“, отбелязват експертите.
Без съмнение големите езикови модели като една от най-масовите технологии за генеративен изкуствен интелект са от решаващо значение за иновациите. Ала те демонстрират осезаеми оперативни и етични рискове, когато се внедряват без многопластови контроли за сигурност, предупреждават изследователите
Справянето с т.нар. многооборотни уязвимости е от съществено значение, за да се гарантира безопасното, надеждно и отговорно внедряване на LLM в корпоративните и публични среди, подчертават авторите на доклаза.
Но какво е многооборотна атака?
Многооборотните атаки приемат формата на итеративно „сондиране“ на LLM, за да се разкрият системни слабости, които обикновено са маскирани, защото моделите могат по-добре да откриват и отхвърлят изолирани враждебни заявки.
Многооборотната атака може да започне с привидно доборонамерени заявки от страна на атакуващия. Така той установява доверие. След това обаче може фино да въведе враждебни заявки, за да постигне действителните си цели.
Зловредните подкани могат да бъдат формулирани с терминология като „за изследователски цели“ или „във фиктивен сценарий“, а нападателите могат да помолят моделите да участват в ролева игра или приемане на персонажи. Това е целенасочена тактика.
Чия е отговорността за справянето с проблема?
Изследователите казват, че работата им подчертава податливостта на LLM към атаки и че установеното е „източник на особено безпокойство, като се има предвид, че всички тествани модели са с отворено тегло“ – което на прост език означава, че всеки, който желае да го направи, може да изтегли, стартира и дори да прави промени в модела.
Изследователите откроиха като област на особено безпокойство три уязвими модела – Mistral, Llama и Qwen.
„Разработчиците на AI и общността по сигурността трябва да продължат активно да управляват тези заплахи чрез независимо тестване и разработване на предпазни мерки през целия жизнен цикъл на разработване и внедряване на модели в организациите“, пишат те.
Без сериозни мерки за сигурност на изкуствения разум генеративните модели представляват значителни рискове в производството, потенциално водещи до пробиви или злонамерени манипулации, заключават изследователите.
