
От отравяне на данни до инжективни запитвания – заплахите срещу корпоративните AI приложения се превръщат от теория в реалност, категорични са изследователите на киберсигурността.
Атаките срещу AI системи и инфраструктури започват да стават съвсем реални и все по-чести. Експертите по сигурността очакват броят на тези видове събития да се увеличи през следващите години.
Бързайки да грабнат предимствата на AI, повечето организации действат припряно и небрежно по отношение на затягането на сигурността при внедряване на AI инструменти и боравене с тях. В резултат те са неподготвени да откриват, отклоняват или реагират на подобни атаки.
„Повечето бизнеси са наясно с възможността за подобни атаки, но не мисля, че много хора са напълно наясно как правилно да смекчат риска“, казва Джон Ликато, доцент в Колежа по изкуствен интелект, киберсигурност и компютърни науки „Белини“ в Университета на Южна Флорида, основател и директор на Лабораторията за напредък в машинното и човешкото мислене и собственик на стартиращата компания Actualization.AI.
Най-големи заплахи за AI системите
Някои атаки, като например отравянето на данни, се случват по време на така нареченото обучение.
Други, като например враждебните входящи данни, се случват по време на взаимодействие. Трети, като например кражбата на модел, се случват по време на внедряване.
Кои са най-големите типове заплахи, за които експертите по AI инфраструктура предупреждават днес?
Отравяне на данни
Отравянето на данни е вид атака, при която злонамерени лица манипулират, подправят и „замърсяват“ данните, използвани за разработване или обучение на AI система. Чрез манипулиране на данните или въвеждане на „дефектни“ данни нападателите могат да променят, повлияят или увредят производителност на модела.
Представете си атака, при която която зложелател казва на модела, че зеленото на светофара означава „стоп“, казва Робърт Т. Лий, CAIO и ръководител на изследванията в SANS, фирма за обучение и сертифициране по сигурност. „Целта е да се съсипе резултатът от работата модела“, обяснява той.
Отравяне на модел
Тук атаката е насочена към самия модел, като се стреми да доведе до неточни резултати чрез манипулиране на архитектурата или параметрите на модела. Това не изключва едновременното прилагане и на другата тактика – отравянето на данните.
Инжективни запитвания
По време на атака с инжективни запитвания нападателите използват подкани, които изглеждат легитимни, но всъщност съдържат вградени злонамерени команди, предназначени да накарат големия езиков модел да прави нещо, което не би трябвало да прави.
Злодеите използват тези подкани, за да подведат модела да заобиколи или отмени защитните си мерки, да споделя чувствителни данни или да извършва неоторизирани действия.
„С инжективните запитвания можете да промените това, което AI агентът трябва да прави“, казва Фабиен Крос, главен директор по данни и AI в глобалната консултантска фирма Ducker Carlisle.
Враждебни входящи данни
Собствениците и операторите на модели могат да използват смущаващи данни, за да тестват моделите си за устойчивост. Ала зложелателите ги използват, за да съсипят работата на моделите.
При враждебна атака с враждебни входящи данни злонамерените участници подават подвеждащи данни към AI модел с цел да направят изходящия резултат неправилен.
Обичайно промените (уврежданията на данните) са умишлено проектирани да бъдат достатъчно фини, за да избегнат откриването от системите за сигурност, но все пак са способни да объркат модела. Това прави враждебните входящи данни специален вид атака за избягване.
Кражба на модел/извличане на модел
Злонамерените лица могат да репликират или да реконструират модел, неговите параметри и дори неговите данни за обучение. Те обикновено правят това, използвайки публично достъпни API чрез многократно запитване към модела и събиране на резултати. След това анализират анализират как моделът реагира. После използват анализа, за да го реконструират.
„Това позволява неоторизирано дублиране на самите инструменти“, казва Алисън Уикоф, директор и ръководител за Северна и Южна Америка за глобално разузнаване на заплахите в PwC.
Инверсия на AI модел
Инверсията на модел се отнася до специфична атака за извличане, при която нападателят се опитва да реконструира или да „изцеди“ данните, използвани за обучение на модела.
Злонамерените лица „преобръщат“ модела, използвайки неговите изходящи резултати, за да реконструират или да направят обратен инженеринг на входните данни, използвани за обучението на модела.
Рискове за веригата на доставки
Подобно на други софтуерни системи, AI системите са изградени с комбинация от софтуерни компоненти, които могат да включват отворен код, модели с отворен код, модели на трети страни и различни източници на данни.
Всяка уязвимост в сигурността на компонентите може да се прояви в крайните системи с изкуствен интелект. Това прави AI системите уязвими за атаки по веригата на доставки, където хакерите могат да използват уязвимости в компонентите, за да започнат атака.
Джейлбрейк
Целта на нападателите тук е да накарат системите с изкуствен интелект — предимно чрез взаимодействие с LLM — да пренебрегнат предпазните мерки, които ограничават техните действия и поведение, като например предпазни мерки за предотвратяване на вредни, обидни или неетични резултати.
Злодеите могат да използват различни техники за изпълнение на този тип атака. Например, те биха могли да прибегнат до експлойт за ролева игра, използвайки команди, с които да инструктират изкуствения интелект да приеме персона, която може да заобиколи предпазните мерки.
Биха могли да прикрият злонамерени инструкции в привидно легитимни подкани или да използват код, чужди думи или символи от клавиатурата, за да заобиколят филтрите.
Биха могли дори да използват подкана, формулирана като хипотетичен или изследователски въпрос, или поредица от подкани, които водят до крайната им цел.
Крайната цел винаги е AI да направи нещо, което не трябва да прави – да пише злонамерен код, да разпространява проблемно съдържание и да разкрива чувствителни данни.
„Има ли чат интерфейс, има и начини за взаимодействие с него, за да се накара той да работи извън параметрите“, казва Ликато. „Това е компромисът от наличието на все по-мощна система за разсъждение“.
