Нов тест показа липсата на интелект в AI моделите

Прехваленият разсъждаващ AI се проваля напълно в сложния тест ARC-AGI-2, хората се справят много по-добре (снимка: CC0 Public Domain)

Много се спори доколко изкуственият интелект наистина притежава… интелект. Разработчиците рекламират с апломб своите AI модели, но редица специалисти оспорват интелектуалните възможности на изкуствения разум. Нов тест потвърждава скептицизма им.

Arc Prize Foundation, организация с нестопанска цел, съоснована от известния изследовател на изкуствения интелект Франсоа Шоле, обяви в своя блог, че е създала нов, по-усъвършенстван тест за измерване на общата интелигентност на водещи модели на AI, наречен ARC-AGI-2.

Всички модерни системи с изкуствен интелект се провалят в този нов, сложен тест за общ интелект. Според класацията, разсъждаващите модели като o1-pro на OpenAI и R1 на DeepSeek постигат резултат между 1% и 1,3%. Модели без логически разсъждения, включително GPT-4.5, Claude 3.7 Sonnet и Gemini 2.0 Flash, се справят още по-зле – техните верни заключения са под 1%.

Тестът ARC-AGI-2 е серия от пъзели, в които AI трябва да разпознае визуални модели чрез анализиране на цветни квадрати и въз основа на това да конструира правилното продължение на модела. Тестът е специално проектиран така, че моделите да не могат да разчитат на минал опит, а вместо това да се адаптират към нови предизвикателства.

Фондацията Arc Prize е провела тестове и с над 400 души. Средно участниците в теста са отговорили правилно на 60% от въпросите. Това значително превъзхожда всички тествани AI модели, като същевременно подчертава разликата между настоящите възможности на AI и човешкия интелект при решаване на проблеми, които изискват адаптиране и разбиране на нови концепции.

Шоле твърди, че ARC-AGI-2 е по-точна мярка за действителната интелигентност на AI моделите от предишната версия на теста, ARC-AGI-1. Освен това ARC-AGI-2 елиминира възможността за решаване на проблеми чрез „метода на грубата сила”, тоест чрез използване на огромна изчислителна мощност за изпробване на всички възможни опции, което се случи в теста ARC-AGI-1 и беше признато за сериозен недостатък.

За да се справи с неточностите на първия тест, ARC-AGI-2 въвежда показател за ефективност, който принуждава AI да интерпретира шаблоните „в движение”, вместо да разчита на запомняне. Съоснователят на Arc Prize Foundation Грег Камрад коментира, че „интелигентността не е само способността да се решават проблеми или да се постигат високи резултати, но и ефективността, с която тези способности се придобиват и разгръщат”.

ARC-AGI-1 остана водещият показател за оценка на AI моделите в продължение на около пет години, докато OpenAI не пусна своя усъвършенстван разсъждаващ модел o3 през декември 2024 г. Този модел надмина всички други AI модели и дори достигна човешката производителност в тестовете ARC-AGI-1. Но тези постижения бяха постигнати със значителни изчислителни разходи.

Новата версия на теста идва на фона на нарастващите опасения в индустрията относно липсата на обективни критерии за оценка на изкуствения интелект. В отговор фондацията Arc Prize обяви състезание Arc Prize 2025, предизвиквайки разработчиците да постигнат 85% точност в ARC-AGI-2, като харчат не повече от $0,42 изчислителни усилия за решаване на проблем.

Коментар