Открита е нова заплаха за генеративните AI модели: синтетичните данни могат да причинят ефекта на „луда крава”. Проучване установи, че излишните синтетични данни влошават качеството и разнообразието на продукцията от генеративния изкуствен интелект.
Генеративните AI модели като OpenAI GPT-4 или Stable Diffusion на Stability AI са в състояние да генерират нов текст, код, изображения и видеоклипове. Обучението им обаче изисква огромни количества данни, което вече води до ограничения и може напълно да изчерпи ресурсите за обучение в бъдеще.
На фона на недостига на данни, използването на синтетични данни за обучение на бъдещи поколения AI модели може да изглежда като изкусителна опция за големите технологични компании. Синтетичните данни са по-евтини от реалните данни, на практика нямат ограничения, създават по-малко рискове за поверителността и в някои случаи дори могат да подобрят производителността на AI.
Автофагично разстройство
Въпреки това, скорошно изследване на групата за цифрова обработка на сигнали в университета Райс показа, че излишните синтетични данни могат да имат значително отрицателно въздействие върху бъдещите итерации на GenAI модели. Проблемите възникват, когато ученето от синтетични данни неизбежно се повтаря, образувайки един вид обратна връзка – това, което изследователите наричат ”автофагична” или “самопоглъщаща се” верига.
„Нашата група работи усилено върху тези вериги за обратна връзка и лошата новина е, че дори след поколения от този вид обучение, новите модели могат да бъдат непоправимо повредени. Някои го наричат „колапс на модела”, но ние смятаме, че терминът „моделно автофагично разстройство” (MAD) е по-подходящ, подобно на болестта луда крава”, казва Ричард Баранюк, професор по електротехника и компютърно инженерство в университета Райс.
Лудата крава е фатално невродегенеративно заболяване, което засяга кравите и има човешки еквивалент. То е причинено от консумация на замърсено месо. Голяма епидемия през 80-те и 90-те години на миналия век насочи вниманието към факта, че болестта луда крава се разпространява чрез практиката на хранене на крави с обработени останки от техните заклани двойници – оттук и терминът автофагия, от гръцки „autophagy”.
Проучването, озаглавено „Self-Consuming Generative Models Go MAD”, е първата рецензирана работа върху AI автофагията и се фокусира върху генеративни модели за изображения като DALL·E 3, Midjourney и Stable Diffusion.
Зловеща картина за AI бъдещето
Изследователите са проучили три варианта на самопоглъщащи тренировъчни цикли, предназначени да осигурят реалистично представяне на това как реалните и синтетичните данни се комбинират в набори от данни за обучение за генеративни модели.
Прогресивните итерации на циклите показват, че с течение на времето и при липса на достатъчно свежи данни от реалния свят, моделите ще генерират все по-изкривени резултати, които нямат качество, разнообразие или и двете. Паралелните сравнения на набори от данни за изображения, получени от последователни поколения на модела, рисуват зловеща картина на потенциалното бъдеще на AI.
„Нашите теоретични и емпирични анализи ни позволиха да екстраполираме какво може да се случи, когато генеративните модели станат повсеместни и обучават бъдещи модели в самоизчерпващи се цикли. Някои последствия са очевидни: без достатъчно свежи данни от реалния свят, бъдещите генеративни модели са обречени на лудост”, каза Баранюк.
За да направят тези симулации още по-реалистични, изследователите въвеждат параметър за отклонение на извадката, който отчита „селективността” – тенденцията на потребителите да дават приоритет на качеството на данните пред разнообразието. Стимулът за селективен подход е, че качеството на данните се поддържа при повече итерации на модела, но това идва с цената на разнообразието в типовете изображения и текстове в набора от данни.
Изследването показва, че за да поддържат здравето на генеративните AI модели, авторите им трябва да предоставят достатъчно свежи данни от реалния свят – така ще избегнат „разрушаването на автофагията на модела”.
Човечеството и хората се развиват, като стъпват на труда на хората които са живели преди тях. Но сега отричаме възможността на новите AI модели да се обучават като използват труда на AI моделите преди тях. Защо?