TechNews.bg
АктуалноИзкуствен интелектНоваторскиНовини

Нов тест показа липсата на интелект в AI моделите

Прехваленият разсъждаващ AI се проваля напълно в сложния тест ARC-AGI-2, хората се справят много по-добре (снимка: CC0 Public Domain)

Много се спори доколко изкуственият интелект наистина притежава… интелект. Разработчиците рекламират с апломб своите AI модели, но редица специалисти оспорват интелектуалните възможности на изкуствения разум. Нов тест потвърждава скептицизма им.

Arc Prize Foundation, организация с нестопанска цел, съоснована от известния изследовател на изкуствения интелект Франсоа Шоле, обяви в своя блог, че е създала нов, по-усъвършенстван тест за измерване на общата интелигентност на водещи модели на AI, наречен ARC-AGI-2.


Всички модерни системи с изкуствен интелект се провалят в този нов, сложен тест за общ интелект. Според класацията, разсъждаващите модели като o1-pro на OpenAI и R1 на DeepSeek постигат резултат между 1% и 1,3%. Модели без логически разсъждения, включително GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, се справят още по-зле – техните верни заключения са под 1%.

Тестът ARC-AGI-2 е серия от пъзели, в които AI трябва да разпознае визуални модели чрез анализиране на цветни квадрати и въз основа на това да конструира правилното продължение на модела. Тестът е специално проектиран така, че моделите да не могат да разчитат на минал опит, а вместо това да се адаптират към нови предизвикателства.

Фондацията Arc Prize е провела тестове и с над 400 души. Средно участниците в теста са отговорили правилно на 60% от въпросите. Това значително превъзхожда всички тествани AI модели, като същевременно подчертава разликата между настоящите възможности на AI и човешкия интелект при решаване на проблеми, които изискват адаптиране и разбиране на нови концепции.


Шоле твърди, че ARC-AGI-2 е по-точна мярка за действителната интелигентност на AI моделите от предишната версия на теста, ARC-AGI-1. Освен това ARC-AGI-2 елиминира възможността за решаване на проблеми чрез „метода на грубата сила”, тоест чрез използване на огромна изчислителна мощност за изпробване на всички възможни опции, което се случи в теста ARC-AGI-1 и беше признато за сериозен недостатък.

За да се справи с неточностите на първия тест, ARC-AGI-2 въвежда показател за ефективност, който принуждава AI да интерпретира шаблоните „в движение”, вместо да разчита на запомняне. Съоснователят на Arc Prize Foundation Грег Камрад коментира, че „интелигентността не е само способността да се решават проблеми или да се постигат високи резултати, но и ефективността, с която тези способности се придобиват и разгръщат”.

ARC-AGI-1 остана водещият показател за оценка на AI моделите в продължение на около пет години, докато OpenAI не пусна своя усъвършенстван разсъждаващ модел o3 през декември 2024 г. Този модел надмина всички други AI модели и дори достигна човешката производителност в тестовете ARC-AGI-1. Но тези постижения бяха постигнати със значителни изчислителни разходи.

Новата версия на теста идва на фона на нарастващите опасения в индустрията относно липсата на обективни критерии за оценка на изкуствения интелект. В отговор фондацията Arc Prize обяви състезание Arc Prize 2025, предизвиквайки разработчиците да постигнат 85% точност в ARC-AGI-2, като харчат не повече от $0,42 изчислителни усилия за решаване на проблем.

още от категорията

7 тенденции в изкуствения интелект през 2026 г.

TechNews.bg

AI резюметата съсипват труда на кулинарните блогъри

TechNews.bg

AI не се отплаща, но компаниите увеличат разходите си за него

TechNews.bg

Тръмп наема 1000 специалисти за „Технологичната сила“

TechNews.bg

Южна Корея въвежда  всеобхватни регулации за изкуствения интелект

TechNews.bg

Експеримент в образованието: AI във всички училища на Ел Салвадор

TechNews.bg

Коментари