TechNews.bg
Водещи новиниИзкуствен интелектНовини

AI моделите се изложиха с толкова проста задача: да кажат колко е часът

Колкото и да се усъвършенстват, LLM все още не могат да догонят човешките възможности

Обикновеният часовник със стрелки се оказа неразгадаема енигма за AI алгоритмите (снимка: CC0 Public Domain)

Бързо развиващите се възможности на изкуствения интелект накараха много хора да се тревожат. Но не се притеснявайте толкова много: ако можете да кажете колко е часът по аналогов часовник, все още превъзхождате изкуствения интелект.

Моделите с изкуствен интелект, способни да анализират различни видове медии под формата на текст, изображения и видео – наречени мултимодални модели (MLLM) – набират скорост в различни приложения, като например спортни анализи и автономно шофиране. Но понякога тези модели могат да се провалят в елементарни задачи. Една от тях е точното отчитане на времето от аналогов часовник. Това повдига въпросите с кои фактори на анализа на изображенията точно се борят тези модели.

Например, когато става въпрос за отчитане на традиционни часовници, затрудняват ли се моделите да различат късите и дългите стрелки? Или се затрудняват да определят точния ъгъл и посока на стрелките спрямо числата? Отговорите на тези привидно тривиални въпроси могат да предоставят критична информация за основните ограничения на тези модели.

Хавиер Конде, доцент в Политехническия университет в Мадрид, и колеги от Политехническия университет в Милано и Университета във Валядолид, се опитаха да изследват тези ограничения в скорошно проучване. Резултатите, публикувани в IEEE Internet Computing, показват, че ако MLLM се затруднява с един аспект от анализа на изображенията, това може да предизвика каскаден ефект, който влияе върху други аспекти на образния анализ.


Колко добре изкуственият интелект може да разпознае колко е часът

Първо, изследователският екип е изградил голям набор от синтетични изображения на аналогови часовници, които визуализират повече от 43 000 показани часа, и тествал способността на четири различни MLLM да четат часовете в изображенията. И четирите модела първоначално не успели да определят времето.

Изследователите смогнали да подобрят производителността на моделите, като ги обучили с допълнителни 5000 изображения от набора от данни. После тествали моделите отново, използвайки допълнителни изображения, които не са използвани преди. Производителността на моделите обаче отново била разочароващо ниска при тестването спрямо напълно нова колекция от изображения на часовници.

Резултатите засягат ключово ограничение на много модели с изкуствен интелект: те са добри в разпознаването на данни, с които са запознати, но често не успяват да разпознаят нови сценарии, с които все още не са се сблъсквали в своите обучителни данни. С други думи, често им липсва обобщение.

Къде е проблемът

Но Конде и колегите му се зачудили какво прави толкова трудно за MLLM да определят времето. Ако проблемът е свързан с чувствителността на модела към пространствените посоки на стрелките на часовника, тогава по-нататъшното фино настройване би могло да се справи с това ограничение, нали? Изглежда, че просто трябва да покажат на алгоритъма повече данни и тогава той ще стане по-добър в задачата.

В серия от експерименти учените създали нови набори от данни за аналогови часовници, или с изкривени форми, или с променен външен вид на стрелките на часовника, например чрез добавяне на стрелки в краищата.

„Докато подобни вариации представляват малка трудност за хората, моделите често се провалят в тази задача“, обяснява Конде, цитирайки известната картина на Салвадор Дали с втечнените часовници. Ако хората могат да дешифрират времето на изкривените, топящи се часовници, то MLLM се затрудняват да определят времето на подобни разкривени изображения.


Резултатите показват, че MLLMS се затруднява да определи точно пространствената ориентация на стрелките на часовника, но се затруднява още повече, когато стрелките на часовника имат уникален външен вид (например топчета или орнаменти по върховете на стрелките). Чрез допълнителни експерименти изследователите установили, че ако MLLM моделите допуснат грешка при разпознаването на стрелките, това от своя страна води до по-големи пространствени грешки.

„Изглежда, че отчитането на времето не е толкова проста задача, колкото може да изглежда, тъй като моделът трябва да идентифицира стрелките на часовника, да определи тяхната ориентация и да комбинира тези наблюдения, за да определи правилното време“, обяснява Конде, отбелязвайки, че моделите се затрудняват да обработват тези промени едновременно.

Фини детайли с голямо значение

В своето проучване изследователите подчертават, че в по-сложни реални сценарии, като анализ на медицински изображения или автономно шофиране, подобни фини детайли имат голямо значение. Фините разлики могат да доведат до критични грешки с тежки последици.

„Тези резултати показват, че не можем да приемаме производителността на модела за даденост“, казва Конде.

Много хора очакват, че изкуственият интелект ще продължи да се усъвършенства и да измества човека. Но ето, че остава този въпрос: ще могат ли моделите с изкуствен интелект в крайна сметка да отчитат точно традиционните аналогови часовници? Само времето ще покаже.

още от категорията

Провал в тестове за сигурност – никой не може да контролира суперинтелект

TechNews.bg

AI агент Kiro разработва самостоятелно софтуер

TechNews.bg

Три принципа, без които изкуственият интелект ще полудее

TechNews.bg

AI анализира разговорите в затвора, предотвратява престъпления

TechNews.bg

AI за умно управление на градските паркове и зеленина: Мадрид се пробва

TechNews.bg

AI може да замени близо 12% от работната сила в САЩ

TechNews.bg

Коментари