Водещи новини Изкуствен интелект Новаторски Новини Топ новини

AI може да се обучи изцяло от безплатни материали

от TechNews.bg06/06/202507/06/2025

Изкуственият интелект може да бъде обучен и на базата на свободно достъпно, безплатно съдържание (снимка: CC0 Public Domain)

Разработчиците на изкуствен интелект обичат да казват, че техните AI модели са невъзможни за създаване без материали, защитени с авторски права. Група учени от САЩ и други страни обаче доказаха, че е възможно разработването на AI с безплатно съдържание, макар и трудно. Те създадоха модел, обучен изключително върху публично достъпно съдържание и материали с отворен лиценз.

Проектът е резултат от сътрудничество между 14 институции, включително Масачузетския технологичен институт, Университета Карнеги Мелън и Университета в Торонто. Изследователите са съставили масив от данни за обучение, събрани само от свободни източници – обемът му достига 8 терабайта (TB). По-специално, масивът включва 130 000 книги от Библиотеката на Конгреса на САЩ.

Използвайки тези материали, изследователите са обучили голям езиков модел със 7 милиарда параметъра. Той работи приблизително на нивото на модела Meta Llama 2-7B с подобен размер, пуснат през 2023 г. Авторите на изследването не са предоставили никакви бенчмаркове за производителността на модела спрямо водещи в индустрията проекти.

Качеството на работа на нивото на двугодишен AI модел не e единственият недостатък на системата – процесът на преобразуване на обучителния набор от данни в правилния формат също e труден. Голяма част от данните не били четими от машини, така че в подготовката им е трябвало да участват хора.

„Използвахме инструменти за автоматизация, но всички наши материали бяха анотирани ръчно в края на деня и проверени от хора. А това е много трудно”, казва един от участниците в проекта, цитиран от Engadget. Учените е трябвало да определят кой лиценз е валиден за всеки сканиран сайт.

През 2024 г. представител на OpenAI заяви пред британска парламентарна комисия, че „е невъзможно да се обучават водещи съвременни AI модели, без да се използват материали, защитени с авторски права”.

Миналата година експерт от Anthropic се съгласи с тази теза: „Големите езикови модели най-вероятно нямаше да съществуват, ако фирмите [за AI] бяха задължени да лицензират работата в своите обучителни набори от данни”.

Сега има доказателства, че и двете твърдения са неверни. Проучването е малко вероятно да промени нещо в индустрията, но един от често срещаните аргументи, използвани от разработчиците на AI, се оказа грешен.

предишна статия

AI може да се обучи изцяло от безплатни материали

TechNews.bg

Коментари

Ново предизвикателство: заплаха ли е агентният AI за бизнеса?

От кулоарите на InfoSec SEE 2026: Как „vibe coding“ променя света на киберсигурността

Агентният AI променя съотношението CPU/GPU

InfoSEC SEE 2026: AI пренареди киберсигурността само за година

AI извлича цифри от научните статии и ги превръща в ползваеми данни

Дойде ли краят на икономиката на заключения потребител?

AI срещу AI: новата „война” в киберсигурността

За едни Първи юни носи радост, за други тишина – заедно можем да променим тази история

А1 и MAX Sport предоставят безвъзмездно правата за излъчване на Диамантената лига...

70% от жителите на САЩ са против AI центровете за данни

Дан Лазареску поема управлението на Роберт Бош в България

Емблематичният Solar Impulse 2 се разби в Мексиканския залив

Съхранението на енергия е достигнало 100-гигаватовата ера

InfoSec SEE 2026: Предизвикателства към сигурността в ерата на AI

Германия, Великобритания и България: топ 3 пазара за ВЕИ колокация в Европа

Новите европейски директиви за сигурността са предизвикателство за фирмите

TSMC: световният пазар на чипове ще достигне $1,5 трилиона до 2030 г.

Samsung не смогва да се справи с търсенето на Galaxy S26

Дестилирана класика и непреходна елегантност: iPhone 17e

Спокойствие и сигурен достъп – три смарт ключалки WELOCK

Литиевите батерии се оказаха по-опасни, отколкото се смяташе

Linux компютри са пробити от хакери в продължение на 9 години

HONOR 600 Pro и HONOR 600 от A1 – в комплект с безжични слушалки и на специална цена

А1 приема предварителни поръчки за новия OPPO Find X9 Ultra

Идва нова вълна в лаптопите: Googlebook с Android

QNAP пуска 10-слотов, изцяло флаш SATA SSD NAS за бизнеса

ElevenMusic – това AI приложение композира песни по текстови описания

SofiaBus – безплатно приложение за градския транспорт в столицата

още от категорията

Коментари