Тестваха надеждността на AI чрез игри на судоку

Големите езикови модели все още не могат да отразят човешкия начин на мислене и логиката на хората (графика: CC0 Public Domain)

Инструментите с изкуствен интелект, наречени големи езикови модели (LLM), могат да направят много в наши дни – да дават съвети за взаимоотношения, да създават текстове, които да ни освободят от работни задължения, и дори да пишат научни статии. А могат ли да решат и сутрешното ни судоку?

В ново проучване екип от компютърни учени от Университета на Колорадо в Боулдър реши да разбере това. Групата създаде близо 2300 оригинални пъзела судоку, които изискват от играчите да въведат числа в мрежа, следвайки определени правила. След това учените помолиха няколко AI инструмента да попълнят пъзелите.

Резултатите бяха смесени, докладва групата. Докато някои от моделите с изкуствен интелект можеха да решават лесни судоку, дори най-добрите се затрудняваха да обяснят как са ги решили – давайки объркани, неточни или дори сюрреалистични описания за това как са стигнали до отговорите си.

Резултатите повдигат въпроси относно надеждността на генерираната от изкуствен интелект информация, каза съавторът на изследването Мария Пачеко.

„За някои видове судоку пъзели повечето LLM програми все още не успяват, особено в създаването на обяснения, които по някакъв начин са използваеми за хората“, каза Пачеко, доцент в катедрата по компютърни науки.

„Защо се стигна до това решение? Какви са стъпките, които трябва да предприемете, за да стигнете до него?“, е отговорът, който търси екипът на Пачеко. Тя и нейните колеги публикуваха резултатите си в „Констатации на Асоциацията за компютърна лингвистика“.

Учените не се опитват да мамят в пъзелите. Вместо това използват тези логически упражнения, за да изследват как „мислят“ платформите с изкуствен интелект. Резултатите един ден биха могли да доведат до по-надеждни и достоверни компютърни програми, каза съавторът на изследването Фабио Соменци, професор в катедрата по електротехника, компютърни науки и енергетика.

„Пъзелите са забавни. Но те са и микрокосмос за изучаване на процеса на вземане на решения в машинното обучение“, коментира Соменци. „Ако имате изкуствен интелект, който да подготвя данъчните ви, искате да можете да обясните на IRS защо изкуственият интелект е написал това, което е написал“.

Сомензи, който се самоописва като фен на судоку, отбелязва, че пъзелите са отражение на човешкия начин на мислене. Но дали това може да се открие у езиковите модели?

За да създадат ChatGPT, например, програмистите първо са предоставили на изкуствения интелект почти всичко, което някога е било написано в интернет. Когато ChatGPT отговаря на въпрос, той предсказва най-вероятния отговор въз основа на всички тези данни.

„Това, което правят, е по същество да предскажат следващата дума“, каза Пачеко. „Ако имате началото на изречение, коя дума следва? Те правят това, като се позовават на всяко изречение на английски език, до което могат да получат достъп“.

За начало в експеримента си изследователите са създали судоку пъзели с различна трудност, използвайки мрежа шест на шест (по-опростена версия на пъзелите девет на девет, които обикновено се намират онлайн). След това дали на пъзелите на серия от AI модели, включително предварителен преглед на модела o1 на OpenAI, който през 2023 г. представляваше най-съвременните технологии за този вид LLM.

Моделът o1 водеше, казват авторите, решавайки правилно приблизително 65% от судоку пъзелите. След това екипът помолил платформите с изкуствен интелект да обяснят как са получили отговорите си. Тогава резултатите обаче станали наистина „шантави“.

„Понякога обясненията на AI измисляха факти“, каза Ашутош Триведи, съавтор на изследването и доцент по компютърни науки в CU Boulder. В някои от обясненията алгоритмите дали отговори, с които звучали като „полудeли и напълно объркани“, споделя Соменци.

Тестваха надеждността на AI чрез игри на судоку

Учени провериха логиката на големите езикови модели – и останаха изненадани

TechNews.bg

Коментари

Обвързаността с облачните доставчици все повече тревожи ИТ лидерите

Интелигентните градове не са фикция, напредъкът е глобален

Рансъмуерът чупи рекорди, атаките са опустошително ефективни

Зависимостта от Силициевата долина започна да тревожи европейците

Европа внезапно хареса употребяваните лаптопи

InfoSec SEE 2026: фокус върху реалните заплахи към бизнеса и бъдещето на киберсигурността

Продавач в магазин си купувал Apple лаптопи с 99% отстъпка

Нов рекорд за 6G комуникации: достигната е скорост 400 Gbps

Хакер наемал скъпи хотелски апартаменти срещу 1 евроцент

Британската армия въвежда акустична система за откриване на вражеска артилерия

Май астронавтите вече са ненужни, нали?

Българската компания Cloud Office става доставчик на AWS решения

Тактика на двойно изнудване носи успех на рансъмуер бандите

Разработчици затъват в корекции на грешки от изкуствения интелект

Най-големият проект за PV енергия + съхранение се включи в мрежата

Нов транзистор съхранява хиляди стабилни състояния

MWC 2026 очаква смартфона с претенция за най-сигурен в света: HIROH Phone

AOC GAMING 24G4ZR и 27G4ZR – достъпни монитори за състезателни игри

AI PC или маркетингов трик – защо обновената бизнес техника може да се окаже победител през 2026 г.

Важна промяна в сертификатите Secure Boot на Windows

Нови подробности за очаквания „народен” iPhone 17e

24-слотов QNAP NAS предлага капацитет до петабайти

До 50% отстъпка за второ устройство Huawei през февруари в А1

A1 предлага до 250 евро отстъпка за смартфони през февруари

YouTube for visionOS – любимите видеа вече официално и на VR очилата Apple Vision Pro

LibreOffice 26.2 – по-бърз и усъвършенстван офис пакет

още от категорията

Коментари