TechNews.bg
Водещи новиниИзкуствен интелектНоваторскиНовини

Тестваха надеждността на AI чрез игри на судоку

Учени провериха логиката на големите езикови модели – и останаха изненадани

Големите езикови модели все още не могат да отразят човешкия начин на мислене и логиката на хората (графика: CC0 Public Domain)

Инструментите с изкуствен интелект, наречени големи езикови модели (LLM), могат да направят много в наши дни – да дават съвети за взаимоотношения, да създават текстове, които да ни освободят от работни задължения, и дори да пишат научни статии. А могат ли да решат и сутрешното ни судоку?

В ново проучване екип от компютърни учени от Университета на Колорадо в Боулдър реши да разбере това. Групата създаде близо 2300 оригинални пъзела судоку, които изискват от играчите да въведат числа в мрежа, следвайки определени правила. След това учените помолиха няколко AI инструмента да попълнят пъзелите.

Резултатите бяха смесени, докладва групата. Докато някои от моделите с изкуствен интелект можеха да решават лесни судоку, дори най-добрите се затрудняваха да обяснят как са ги решили – давайки объркани, неточни или дори сюрреалистични описания за това как са стигнали до отговорите си.

Резултатите повдигат въпроси относно надеждността на генерираната от изкуствен интелект информация, каза съавторът на изследването Мария Пачеко.


„За някои видове судоку пъзели повечето LLM програми все още не успяват, особено в създаването на обяснения, които по някакъв начин са използваеми за хората“, каза Пачеко, доцент в катедрата по компютърни науки.

„Защо се стигна до това решение? Какви са стъпките, които трябва да предприемете, за да стигнете до него?“, е отговорът, който търси екипът на Пачеко. Тя и нейните колеги публикуваха резултатите си в „Констатации на Асоциацията за компютърна лингвистика“.

Учените не се опитват да мамят в пъзелите. Вместо това използват тези логически упражнения, за да изследват как „мислят“ платформите с изкуствен интелект. Резултатите един ден биха могли да доведат до по-надеждни и достоверни компютърни програми, каза съавторът на изследването Фабио Соменци, професор в катедрата по електротехника, компютърни науки и енергетика.

„Пъзелите са забавни. Но те са и микрокосмос за изучаване на процеса на вземане на решения в машинното обучение“, коментира Соменци. „Ако имате изкуствен интелект, който да подготвя данъчните ви, искате да можете да обясните на IRS защо изкуственият интелект е написал това, което е написал“.

Сомензи, който се самоописва като фен на судоку, отбелязва, че пъзелите са отражение на човешкия начин на мислене. Но дали това може да се открие у езиковите модели?

За да създадат ChatGPT, например, програмистите първо са предоставили на изкуствения интелект почти всичко, което някога е било написано в интернет. Когато ChatGPT отговаря на въпрос, той предсказва най-вероятния отговор въз основа на всички тези данни.

„Това, което правят, е по същество да предскажат следващата дума“, каза Пачеко. „Ако имате началото на изречение, коя дума следва? Те правят това, като се позовават на всяко изречение на английски език, до което могат да получат достъп“.


За начало в експеримента си изследователите са създали судоку пъзели с различна трудност, използвайки мрежа шест на шест (по-опростена версия на пъзелите девет на девет, които обикновено се намират онлайн). След това дали на пъзелите на серия от AI модели, включително предварителен преглед на модела o1 на OpenAI, който през 2023 г. представляваше най-съвременните технологии за този вид LLM.

Моделът o1 водеше, казват авторите, решавайки правилно приблизително 65% от судоку пъзелите. След това екипът помолил платформите с изкуствен интелект да обяснят как са получили отговорите си. Тогава резултатите обаче станали наистина „шантави“.

„Понякога обясненията на AI измисляха факти“, каза Ашутош Триведи, съавтор на изследването и доцент по компютърни науки в CU Boulder. В някои от обясненията алгоритмите дали отговори, с които звучали като „полудeли и напълно объркани“, споделя Соменци.

още от категорията

Бизнесите ще използват 1,3 милиарда AI агента до 2028 г. 

TechNews.bg

Провал в тестовете за сигурност – никой не може да контролира суперинтелекта

TechNews.bg

AI агент Kiro разработва самостоятелно софтуер

TechNews.bg

Три принципа, без които изкуственият интелект ще полудее

TechNews.bg

AI анализира разговорите в затвора, предотвратява престъпления

TechNews.bg

AI за умно управление на градските паркове и зеленина: Мадрид се пробва

TechNews.bg

Коментари