Събирачите на данни за AI забавиха глобалния интернет

AI ботовете събират агресивно данни от уебсайтовете, което води до забавяне на интернет услугите (снимка: CC0 Public Domain)

Изкуственият интелект, наред с многото си и разнопосочни въздействия върху ИТ индустрията и пазара на труда, доведе и до един малко очакван ефект – забавяне на интернет по целия свят. На какво се дължи това?

Оказа се, че събирането на данни за обучение на AI моделите е претоварило услугите на хостинг доставчиците, което респективно се отразява на скоростта на интернет достъпа за крайните потребители. Хостинг платформата за проекти с отворен код SourceHut съобщи, че нейните услуги са били забавени от уеб роботи, управлявани от компании за изкуствен интелект. Подобни оплаквания идват все по-често от собственици на други хостинг ресурси.

За да ограничи трафика от AI ботове, SourceHut трябваше да внедри Nepenthes – защита срещу уеб роботи, които събират данни за обучение на AI модели. Администраторите на платформата едностранно са блокирали целия диапазон от адреси на няколко облачни доставчици, поради прекомерни обеми трафик от ботове, разположени в техните мрежи.

Собствениците на добросъвестни услуги в тези облачни инфраструктури са посъветвани да се свържат индивидуално с администраторите на SourceHut, за да ги добавят към изключенията.

През 2023 г. компанията OpenAI, разработчик на ChatGPT, обеща, че нейните ботове ще следват директиви от файловете robots.txt, които указват как уеб роботите обработват данните от сайтовете. Други разработчици на AI са поели подобни ангажименти, но продължават да постъпват оплаквания за злоупотреби.

Миналото лято уебсайтът iFixit беше нападнат от бота Anthropic Claudebot. През декември хостът Vercel отчете значително присъствие на AI роботи в своята инфраструктура: OpenAI GPTbot изпрати 569 милиона заявки към неговата мрежа, докато Anthropic Claude изпрати 370 милиона. Заедно те представляват около 20% от 4,5-те милиарда заявки, които Googlebot използва за индексиране на уеб ресурси.

В същото време разработчикът на разпределената социална мрежа Diaspora, Денис Шуберт, се оплака, че през предходните 60 дни ботовете с изкуствен интелект представляват 70% от трафика към неговия сървър. Публикацията стана “вирусна” и активността на AI роботите рязко спадна.

Въпреки това онлайн хулиганите инициираха масово нашествие на заявки от клиенти със стойност на низа на потребителския агент (user-agent), съответстваща на OpenAI GPTbot. Но истинският OpenAI AI бот изпраща заявки от инфраструктурата на Microsoft Azure, а в случая със сървъра на Diaspora те идват от адреси на AWS и дори от американски интернет доставчици.

Ситуацията се усложнява от факта, че някои ботове имат множество цели. Така например, Meta AI bot и AppleBot събират данни изключително за AI обучение, докато GoogleBot обслужва както AI, така и индексирането при търсене. За да избегне объркване, през 2023 година Google добави отделна Google-Extended стойност за инструментите за обучение на AI.

Събирачите на данни за AI забавиха глобалния интернет

TechNews.bg

Коментари

IBS Apple360: цялостна грижа за Apple устройствата в бизнеса

Тийнейджърите са нетърпеливи да влязат в света на киберпрестъпността

Дружеските измами ще скочат с 25% в пика на празнично пазаруване

Съюзи на кибербанди довели до скока в престъпността

За дома и офиса: UGREEN NAS – умни, сигурни, с огромен капацитет

Коледни оферти от А1 – отстъпки до 700 лв. за топ смартфони

Genesis Neon 613 G2 – качествен звук за комфорт при работа и забавление:

Излиза мини смартфон без социални медии и браузър

Brother пусна нова серия A3 мастиленоструйни принтери за офиса

Seed3D – превръща всяка снимка в реалистичен 3D модел

QVR Recording Vault – архивиране на записи от видеонаблюдение

още от категорията

Коментари