Не се спира пред нищо: AI обхожда сайтове без позволение

Ботовете за събиране на съдържание от уебсайтове безпардонно заобикалят ограниченията
(снимка: CC0 Public Domain)

Изкуственият интелект все по-често предизвиква спорове и разследвания заради неправомерни действия. В медийното пространство нашумя пореден случай на конфликт, при който AI не спазва забрана за обхождане на сайтове.

Облачният доставчик Amazon Cloud започна разследване дали стартъпът Perplexity AI нарушава правилата на услугата Amazon Web Services (AWS), като обхожда уебсайтове, които са забранили това чрез текстовия файл robot.txt, съобщи Wired. Говорител на AWS потвърди разследването.

По-рано се разчу, че Perplexity, която е подкрепена от семейната фондация на Джеф Безос и Nvidia и наскоро беше оценена на 3 милиарда долара, разчита на съдържание, получено от уебсайтове, които са забранени за достъп чрез стандартен протокол за изключване на роботи. Въпреки че протоколът не е правно обвързващ, условията на услугата обикновено са такива.

Протоколът за изключване на роботи е уеб стандарт от десетилетия, който включва публикуване на обикновен текстов файл robots.txt в домейна на сайта, за да се посочи кои страници не трябва да бъдат достъпни за автоматизирани ботове. Въпреки че компаниите, използващи ботове за обхождане на сайтове, могат да пренебрегнат този протокол, повечето традиционно го следват.

Говорител на AWS заяви, че клиентите на популярната облачна услуга трябва да се придържат към стандарта robots.txt, когато обхождат уебсайтове. „Общите условия на AWS забраняват обидно или незаконно поведение и нашите клиенти са отговорни за спазването на тези условия. Редовно получаваме доклади с подозрения за злоупотреба от различни източници и ангажираме нашите клиенти да се справят с това”, казаха от AWS.

Разследването на практиките на Perplexity AI последва репортаж на Forbes от 11 юни, обвиняващ стартъпа в кражба на поне една от статиите му. Проучването потвърди тези практики и откри допълнителни доказателства за злоупотреба със системи, свързани с AI чатбота за търсене на Perplexity.

Специалистите на Condé Nast, компанията-майка на Wired, блокират робота Perplexity на всички свои уебсайтове, използвайки файла robots.txt. Но Wired откри достъп от сървър с непубликуван IP адрес (44.221.181.252), който е посетил уеб собственост на Condé Nast най-малко стотици пъти през последните три месеца, очевидно за да събере данни от уебсайтове.

Изглежда, че сървърът, свързан с Perplexity, е ангажиран с широкомащабно обхождане на новинарски уебсайтове, които забраняват на ботове достъп до тяхното съдържание. Представители на The Guardian, Forbes и The New York Times също разкриха, че са открили IP адрес, който многократно посещава техните сървъри. Wired проследи IP адреса до виртуална машина EC2 (Elastic Compute Cloud), хоствана на AWS.

Главният изпълнителен директор на Perplexity Аравинд Шринивас отговори на разследването на Wired, като каза, че въпросите, зададени на компанията, „отразяват дълбоко и фундаментално неразбиране за това как работят Perplexity и интернет”. Той уточни, че IP адресът, открит от Wired, обхожда уебсайтовете на Condé Nast, но създаденият тестов сайт се управлява от трета компания, която предоставя услуги за обхождане и индексиране на мрежата.

Шринивас отказа да назове името на компанията, позовавайки се на споразумение за неразкриване. На въпроса дали би помолил трета страна да спре сканирането на Wired, Сринивас отговори: „Трудно е”.

Сара Платник, говорител на Perplexity, съобщи, че компанията е отговорила на запитванията на Amazon на 26 юни и определи разследването като стандартна процедура. По нейните думи, Perplexity не е направила никакви промени в операциите си в отговор на опасенията на Amazon. Тя добави, че PerplexityBot ще игнорира robots.txt, когато потребител въведе конкретен URL адрес в заявка – това е случай на употреба, който Платник описва като „много рядък”.

„Когато потребител поиска конкретен URL адрес, това не задейства обхождане. Агентът действа от името на потребителя, като получава URL адреса. Това работи по същия начин, както ако потребителят отиде на страницата, копира текста на статията и след това го постави в Perplexity”, поясни Платник. Подобно описание на функционалността на Perplexity потвърждава констатациите на Wired, че чатботът игнорира robots.txt в някои случаи.

Миналата година Digital Content Next, търговска асоциация на индустрията за цифрово съдържание, в която членуват The New York Times, The Washington Post и Condé Nast, лансира проект на насоки за управление на генеративния AI с цел предотвратяване на потенциално нарушаване на авторски права. Изпълнителният директор Джейсън Кинт каза, че ако обвиненията срещу Perplexity са верни, компанията нарушава много от тези принципи.

„По подразбиране AI компаниите трябва да приемат, че нямат право на вземане и повторно използване на съдържание от издатели без разрешение”, каза Кинт. Ако Perplexity наруши условията на услугата или заобиколи файла robots.txt, „тогава трябва да се включи аларма, че се случва нещо нередно”, добави той.

Коментари по темата: „Не се спира пред нищо: AI обхожда сайтове без позволение”

добавете коментар...

  1. Джони

    Проблемът не е технологията на AI, а с контролът и цензурирането. Наскоро след като беше хакнат се разбра че има и друг скрит, админски(нецензуриран) режим където отговаряше както трябва. За съжаление хакерът си падаше лепилар и му поиска рецептата за метамфетамин. Получи я, както можеше да я получи от хиляди хора, това не е голяма тайна. Имаше къде по-интересни въпроси за задаване.
    Както и да е, разбра се че тези които си плащат абонамент за чата получават орязана и цензурирана версия. Както на времето с Уин 7 имаше starter, professional,ultimate, enterprise.
    Тук обаче схемата е по-голяма и си по-прецакан, защото не може да получиш
    ultimate.
    Само мога да подозирам какви неща питат баровската версия на чата.
    А този сам олтман, накратко смотан не е никакъв гений, други са го разработили това. Той си е една марионетка заедно с мъжа си и им дават по някой долар да си купуват играчки.
    По подобие на другата олиго-марионетка зуки,където му наредиха да си вземе женски чайник.
    Всички тези слугуват на който плаща най-много. Каубои, ватенки, чайници, чаршафи.

Коментар