AI войни: чатбот хаква друг чатбот

Чатботовете с изкуствен интелект могат да се атакуват едни други
(снимка: CC0 Public Domain)

Войните между чатботове с изкуствен интелект изглежда не са далечна перспектива, а близко бъдеще. Учени от Технологичния университет Нанянг (NTU) в Сингапур откриха ефективен начин за хакване на AI чатботове. За да направят това, те обучават един AI чатбот да създава заявки, които заобикалят сигурността на други AI чатботове.

Сингапурските изследователи използват двоен метод за хакване на голям езиков модел (LLM), наречен Masterkey. Първо, те извършват обратен инженеринг на това как LLM открива и се защитава от злонамерени заявки. Използвайки тази информация, учените обучават LLM автоматично да предлага заявки, които позволяват да се заобиколи сигурността на други LLM.

По този начин е възможно да се създаде хакерски LLM, който може автоматично да се адаптира към новите условия и да създава нови хакерски заявки, след като разработчиците направят корекции в своите LLM.

Серия от тестове на хакерския LLM доказват, че методът Masterkey наистина представлява реална заплаха. Изследователите незабавно уведомили доставчиците на услуги за идентифицираните проблеми, след като успешно хакнали техните AI модели.

Разработката на учените от NTU трябва да помогне на компаниите да идентифицират слабостите и ограниченията на своите AI чатботове, за да могат да предприемат стъпки и да ги защитят от хакерски набези.

Коментар