Общността на отворения код на война с AI ботовете

Всеки уебсайт днес може да бъде атакуван безмилостно от уеб робот, който събира данни за нуждите на изкуствения интелект (снимка: CC0 Public Domain)

Ботовете, които масово събират данни от уеб страници, за да обучават и захранват AI модели, се превръщат във все по-сериозен проблем за собствениците на уебсайтове. И не само за тях. Разработчиците на отворен код обявиха партизанска война на колекторите на данни за изкуствения интелект. Някои се борят с тях по оригинални начини, които може да изглеждат наивни или иронични, но в много случаи работят.

Днес всеки уебсайт може да бъде атакуван от уеб робот. Понякога уебсайтовете дори губят функционалност, но разработчиците на софтуер с отворен код страдат най-много: уебсайтовете за отворени проекти публикуват материали за изтегляне, но AI ботовете игнорират директивите на файла robot.txt, които указват секции, забранени за сканиране.

През януари разработчикът с отворен код Се Ясо публикува „вик за помощ” в своя блог, описвайки лошото поведение на AmazonBot. Този бот безмилостно удря Git сървъра на разработчика, причинявайки истински DDoS атаки. Той пренебрегва директивите на robot.txt, променя IP адресите, заменя стойностите на низовете на потребителския агент и прибягва до други трикове.

В крайна сметка Си Ясо разработи програма, наречена Anubis, която проверява клиентите, свързващи се към Git сървър – блокира ботове, но позволява на браузърите, използвани от хората, да преминат през нея. Проектът Anubis беше публикуван в GitHub на 19 март и само за няколко дни натрупа 2000 звезди, 20 сътрудници и 39 разклонения.

Успехът на програмата подсказва, че случаят на Ясо не е уникален: агресивното поведение на ботовете с изкуствен интелект беше коментирано и от Дрю ДеВалт, основател и главен изпълнителен директор на платформата SourceHut, който прекарва между 20% и 100% от работното си време в защита срещу уеб роботи.

Администраторът на проекта Linux Fedora Кевин Фенци в един момент трябваше да блокира изцяло Бразилия, а разработчикът на KDE Plasma Николо Венеранди блокира временно всички китайски IP адреси.

През януари анонимен разработчик на име Аарон пусна решение, наречено Nepenthes на името на насекомоядно растение. Системата примамва AI ботове в „лабиринт” от безполезно съдържание, принуждавайки ги да сканират за глупости.

Подобно решение наскоро представи Cloudflare с по-очевидното име AI Labyrinth. Тази система се задейства, когато ботовете не успеят да спазват директивата „без обхождане”, което ги кара да губят време и ресурси.

Дрю ДеУолт призова за бойкот на всички нови AI инструменти, включително големи езикови модели, генератори на изображения и GitHub Copilot. Това е малко вероятно да се случи в действителност, така че разработчиците с отворен код трябва да бъдат креативни в битката с AI ботовете.

Коментар