Заплаха от „луда крава” в генеративните AI модели

Новите AI модели могат да бъдат непоправимо повредени в резултат на обучениието със синтетични данни (снимка: CC0 Public Domain)

Открита е нова заплаха за генеративните AI модели: синтетичните данни могат да причинят ефекта на „луда крава”. Проучване установи, че излишните синтетични данни влошават качеството и разнообразието на продукцията от генеративния изкуствен интелект.

Генеративните AI модели като OpenAI GPT-4 или Stable Diffusion на Stability AI са в състояние да генерират нов текст, код, изображения и видеоклипове. Обучението им обаче изисква огромни количества данни, което вече води до ограничения и може напълно да изчерпи ресурсите за обучение в бъдеще.

На фона на недостига на данни, използването на синтетични данни за обучение на бъдещи поколения AI модели може да изглежда като изкусителна опция за големите технологични компании. Синтетичните данни са по-евтини от реалните данни, на практика нямат ограничения, създават по-малко рискове за поверителността и в някои случаи дори могат да подобрят производителността на AI.

Автофагично разстройство

Въпреки това, скорошно изследване на групата за цифрова обработка на сигнали в университета Райс показа, че излишните синтетични данни могат да имат значително отрицателно въздействие върху бъдещите итерации на GenAI модели. Проблемите възникват, когато ученето от синтетични данни неизбежно се повтаря, образувайки един вид обратна връзка – това, което изследователите наричат ”автофагична” или “самопоглъщаща се” верига.

„Нашата група работи усилено върху тези вериги за обратна връзка и лошата новина е, че дори след поколения от този вид обучение, новите модели могат да бъдат непоправимо повредени. Някои го наричат „колапс на модела”, но ние смятаме, че терминът „моделно автофагично разстройство” (MAD) е по-подходящ, подобно на болестта луда крава”, казва Ричард Баранюк, професор по електротехника и компютърно инженерство в университета Райс.

Лудата крава е фатално невродегенеративно заболяване, което засяга кравите и има човешки еквивалент. То е причинено от консумация на замърсено месо. Голяма епидемия през 80-те и 90-те години на миналия век насочи вниманието към факта, че болестта луда крава се разпространява чрез практиката на хранене на крави с обработени останки от техните заклани двойници – оттук и терминът автофагия, от гръцки „autophagy”.

Проучването, озаглавено „Self-Consuming Generative Models Go MAD”, е първата рецензирана работа върху AI автофагията и се фокусира върху генеративни модели за изображения като DALL·E 3, Midjourney и Stable Diffusion.

Зловеща картина за AI бъдещето

Изследователите са проучили три варианта на самопоглъщащи тренировъчни цикли, предназначени да осигурят реалистично представяне на това как реалните и синтетичните данни се комбинират в набори от данни за обучение за генеративни модели.

Прогресивните итерации на циклите показват, че с течение на времето и при липса на достатъчно свежи данни от реалния свят, моделите ще генерират все по-изкривени резултати, които нямат качество, разнообразие или и двете. Паралелните сравнения на набори от данни за изображения, получени от последователни поколения на модела, рисуват зловеща картина на потенциалното бъдеще на AI.

„Нашите теоретични и емпирични анализи ни позволиха да екстраполираме какво може да се случи, когато генеративните модели станат повсеместни и обучават бъдещи модели в самоизчерпващи се цикли. Някои последствия са очевидни: без достатъчно свежи данни от реалния свят, бъдещите генеративни модели са обречени на лудост”, каза Баранюк.

За да направят тези симулации още по-реалистични, изследователите въвеждат параметър за отклонение на извадката, който отчита „селективността” – тенденцията на потребителите да дават приоритет на качеството на данните пред разнообразието. Стимулът за селективен подход е, че качеството на данните се поддържа при повече итерации на модела, но това идва с цената на разнообразието в типовете изображения и текстове в набора от данни.

Изследването показва, че за да поддържат здравето на генеративните AI модели, авторите им трябва да предоставят достатъчно свежи данни от реалния свят – така ще избегнат „разрушаването на автофагията на модела”.

Заплаха от „луда крава” в генеративните AI модели

TechNews.bg

1 коментар

Коментари

Стъклената памет вече работи и с обикновено кухненско стъкло

Професионално преориентиране тече сред младежите – и не само

Кибератака може да блокира смарт-фабрика, като „нападне“ времето ѝ

OpenAI ще плати 600 млрд. долара за изчисления до 2030 г.

Разходите за кибер-сигурност се отплащат щедро

InfoSec SEE 2026: фокус върху реалните заплахи към бизнеса и бъдещето на киберсигурността

Robot Phone – първият роботизиран смартфон идва на MWC 2026

AOC GAMING Q27G4ZD – достъпен QD-OLED монитор за игри

Самовъзстановяващ се композит ще позволи на машините да издържат векове

Златни соларни „супрасфери“ улавят около 90% от слънчевия спектър

Deutsche Telekom модернизира 5G мрежата си с AMD технологии

Ъпгрейд на „дигиталната раница“ разгневи учители и родители

Става все по-горещо: кибератаките, подкрепени с AI, удрят за минути

Създадоха изкуствен интелект за космически кораби и сателити

Каква е разликата между AI чатбот и AI агент?

AI роботите ще станат по-многочислени от работещите хора

AOC GAMING Q27G4ZD – достъпен QD-OLED монитор за игри

MWC 2026 очаква смартфона с претенция за най-сигурен в света: HIROH Phone

AI PC или маркетингов трик – защо обновената бизнес техника може да се окаже победител през 2026 г.

Важна промяна в сертификатите Secure Boot на Windows

Robot Phone – първият роботизиран смартфон идва на MWC 2026

Нови подробности за очаквания „народен” iPhone 17e

До 50% отстъпка за второ устройство Huawei през февруари в А1

A1 предлага до 250 евро отстъпка за смартфони през февруари

YouTube for visionOS – любимите видеа вече официално и на VR очилата Apple Vision Pro

LibreOffice 26.2 – по-бърз и усъвършенстван офис пакет

още от категорията

1 коментар

Коментари