
Изкуственият интелект може да бъде обучен и на базата на свободно достъпно, безплатно съдържание (снимка: CC0 Public Domain)
Разработчиците на изкуствен интелект обичат да казват, че техните AI модели са невъзможни за създаване без материали, защитени с авторски права. Група учени от САЩ и други страни обаче доказаха, че е възможно разработването на AI с безплатно съдържание, макар и трудно. Те създадоха модел, обучен изключително върху публично достъпно съдържание и материали с отворен лиценз.
Проектът е резултат от сътрудничество между 14 институции, включително Масачузетския технологичен институт, Университета Карнеги Мелън и Университета в Торонто. Изследователите са съставили масив от данни за обучение, събрани само от свободни източници – обемът му достига 8 терабайта (TB). По-специално, масивът включва 130 000 книги от Библиотеката на Конгреса на САЩ.
Използвайки тези материали, изследователите са обучили голям езиков модел със 7 милиарда параметъра. Той работи приблизително на нивото на модела Meta Llama 2-7B с подобен размер, пуснат през 2023 г. Авторите на изследването не са предоставили никакви бенчмаркове за производителността на модела спрямо водещи в индустрията проекти.
Качеството на работа на нивото на двугодишен AI модел не e единственият недостатък на системата – процесът на преобразуване на обучителния набор от данни в правилния формат също e труден. Голяма част от данните не били четими от машини, така че в подготовката им е трябвало да участват хора.
„Използвахме инструменти за автоматизация, но всички наши материали бяха анотирани ръчно в края на деня и проверени от хора. А това е много трудно”, казва един от участниците в проекта, цитиран от Engadget. Учените е трябвало да определят кой лиценз е валиден за всеки сканиран сайт.
През 2024 г. представител на OpenAI заяви пред британска парламентарна комисия, че „е невъзможно да се обучават водещи съвременни AI модели, без да се използват материали, защитени с авторски права”.
Миналата година експерт от Anthropic се съгласи с тази теза: „Големите езикови модели най-вероятно нямаше да съществуват, ако фирмите [за AI] бяха задължени да лицензират работата в своите обучителни набори от данни”.
Сега има доказателства, че и двете твърдения са неверни. Проучването е малко вероятно да промени нещо в индустрията, но един от често срещаните аргументи, използвани от разработчиците на AI, се оказа грешен.