Надига се движение срещу фалшивото AI съдържание

Доброволческите проекти за информационни и снимкови банки в интернет се справят по-добре с прочистването от измамно съдържание, генерирано от AI алгоритми, отколкото големите уеб-платформи (графика: CC0 Public Domain)

Библиотеките с безплатно и свободно достъпно съдържание в мрежата се ползват от милиони хора, но в последно време все по-голяма част от него е генерирана от AI алгоритми. Все повече автори и творци негодуват срещу тенденцията. Те настояват за прочистване на онлайн-ресурсите от „боклука”, генериран от AI.

Група редактори на Wikipedia създадоха WikiProject AI Cleanup – инициатива за „борба с нарастващия проблем със зле написано съдържание, генерирано от AI, в Wikipedia”. Целта на групата е да защити едно от най-големите хранилища на информация в света от подвеждащата информация, генерирана от AI, която „цапа” резултатите в търсачките, онлайн-книгите, академичните списания, фотографските банки.

„Мнозина от нас забелязаха разпространението на съдържание, в което е характерно едно неестествено изразяване, показващо ясни признаци, че е генерирано от AI. Ние успяхме да копираме подобни „стилове” с помощта на ChatGPT”, казва Иля Лебльо, член-основател на WikiProject AI Cleanup. „Откриването на някои често срещани „крилати фрази”, типични за AI, ни позволи бързо да забележим някои от най-фрапиращите примери за статии, генерирани от алгоритми”.

Инициативата до голяма степен наподобява мерките, поискани от фотографи, предлагащи своите снимки в свободни онлайн-банки за изображения. Някои от творците издействаха въвеждането на ново правило, според което изображения, генерирани от AI, следва да бъдат отбелязани като такива. За повечето фотографи изображенията, създадени от алгоритми, подкопават качеството на банките за визуални материали, или казано с други думи – пълнят архивите с „боклук”.

В много случаи WikiProject AI Cleanup намира AI съдържанието в Wikipedia чрез същите методи, които други специалисти са използвали за намиране на AI-съдържание в научни списания – а именно чрез търсене на фрази, често използвани от ChatGPT. Един впечатляващ пример е появата на изрази от типа на „към последната актуализация на знанията ми към януари 2022 г.”, отнасяща се до последния път, когато големият езиков модел е актуализиран.

Други случаи са по-трудни за откриване. Лебльо и колегите му дават за пример случая със статия за османската крепост Амберлисихар в Wikipedia. “Крепостта Амберлихисар е построена през 1466 г. от Мехмед Завоевателя в Трабзон, Турция. Крепостта е проектирана от арменския архитект Остад Крикор Багсараджан.[7] Строежът на крепостта е завършен с помощта на комбинация от камък и тухлени материали, като за работата по проекта са привлечени майстори и строители от Румелия. Дървесината за крепостта е добивана от горите по крайбрежието на Черно море. Продължителността на строителството не е ясна, но се знае, че крепостта е завършена през 1466 г. Вероятно строителството е отнело няколко години.[7]”.

Статията с дължина над 2000 думи е изпълнена с убедителни абзаци като тези по-горе, разделени на секции относно нейното име, конструкция, различни периоди на обсада и дори усилия за възстановяване, след като крепостта претърпяла „значителни щети в резултат на бомбардировка от руските сили” по време Първата световна война”. Но дали може да се вярва на това?

„Една малка подробност: подобна крепост никога не е съществувала”, казва Лебльо. Освен няколко незначителни факта, споменати в статията, като това, че Мехмед Завоевателя или Мехмед II е бил реална личност, всичко останало в статията е фалшиво. „Цялото съдържание е измама, генерирана от AI, с добре форматирани цитати, препращащи към напълно несъществуващи произведения.”

Фалшивите цитати са „пагубен” проблем, защото могат да останат незабелязани с месеци. Това невярно съдържание може да залегне в наборите от данни, използвани за обучение на LLM модели. Тогава измамната информация се мултиплицира и отново остава трудно откриваема, защото генерираният текст може да звучи добре, с правилно оформени цитати с препратки към реални източници.

Усложнението става още по-голямо, ако фалшивото съдържание се превежда от или на чужди езици. За преводачите може да се окаже трудно да забележат, че нещо не е наред в съдържанието.

Драмата не приключва дотук. Понякога AI съдържание, появяващо се в Wikipedia, може да включва и визуална измама. Като пример от WikiProject AI Cleanup посочват статия за Дарул Улум Девобан – истинска ислямска школа в Индия. Към текста е представено изображение, което – подобно на много статии в Уикипедия – изглежда като картина, типична за периода и свързана с темата на статията. При по-внимателно разглеждане обаче набитото око може да забележи несъвършенствата, типични за изображения, генерирани от AI – издайнически индикации като изкривени ръце и крак със седем пръста.

В крайна сметка засега изглежда, че онлайн-ресурсите, които се изграждат и поддържат на доброволчески начала, се справят по-добре с прочистването от AI съдържание, отколкото други големи интернет услуги. Енергията и концентрацията на стотиците и хилядите ентусиасти успява да поддържа хигиената на съдържанието по-качествено от големите уеб-платформи, които също имат модератори, но те не смогват толкова добре да се справят с огромните обеми доклади и с проверката за подвеждащо съдържание, генерирано от AI.

Коментар