Водещи новини Изкуствен интелект Новаторски Новини Топ новини

Всички бенчмаркове за изкуствен интелект са дефектни

Това сочат резултатите от изследване на над 440 теста за безопасност на AI

от TechNews.bg05/11/202506/11/2025

Халюцинациите и подмазвачеството на AI моделите са проблеми за индустрията на изкуствения интелект (графика: CC0 Public Domain)

Учени от Обединеното кралство и САЩ откриха сериозни недостатъци в няколкостотин теста, използвани за проверка на безопасността и производителността на нови модели с изкуствен интелект, пуснати на пазара.

Съвместен екип от Института за безопасност на изкуствения интелект към правителството на Обединеното кралство, университетите Оксфорд и Станфорд и Калифорнийския университет в Бъркли изследва повече от 440 теста, предназначени да оценят безопасността на системите с изкуствен интелект.

Учените откриха недостатъци, които „подкопават валидността на получените твърдения”, тъй като „почти всички са дефектни в поне една област”, а получените резултати са „неподходящи или дори подвеждащи”, съобщи Гардиън.

При липсата на унифициран стандарт, тези тестове се използват от разработчици, включително в големи технологични компании, за да се оцени пригодността на AI за приложения на човешко ниво и да се гарантира, че AI отговаря на заявените възможности за разсъждение, решаване на математически проблеми и кодиране.

Миналата седмица Google беше принудена да оттегли своя AI модел с отворен код Gemma, след като изкуственият интелект обвини действащ американски сенатор в извършване на чувствително престъпление срещу полицай.

Google заяви, че моделите Gemma са предназначени за разработчици и изследователи, а не за потребители, но ги премахна от платформата AI Studio, след като започнаха да се появяват „съобщения за опити за тяхното използване от не-разработчици”.

„Халюцинациите, при които моделите просто измислят отговори, и подмазвачеството, при което моделите казват на потребителите това, което искат да чуят, са проблеми за цялата област на изкуствения интелект, особено за малки модели като Gemma. Ние оставаме ангажирани с минимизирането на халюцинациите и непрекъснато подобряваме всички наши модели”, увери Google.

Учените са изследвали публично достъпни бенчмаркове за системи с изкуствен интелект, но лидерите в индустрията също имат свои собствени бенчмаркове, които все още не са прегледани от експертната общност. Ето защо изследователският екип посочва необходимостта от разработване на унифициран стандарт за определяне на производителността и безопасността на моделите с изкуствен интелект.

Експертите намират за „шокиращо”, че само 16% от тестовете използват статистически методи за оценка на процента на грешки, за да определят вероятността резултатите да са точни.

В редица случаи, когато е необходимо да се определи специфична характеристика на модел с изкуствен интелект, като например неговата „безвредност”, тази характеристика не е ясно дефинирана, което намалява стойността на целия тест.

предишна статия

Всички бенчмаркове за изкуствен интелект са дефектни

Това сочат резултатите от изследване на над 440 теста за безопасност на AI

TechNews.bg

Коментари

AI агентите усъвършенстват интуицията си с денонощен труд

Нискочестотният спектър – тихият претендент за мрежите на бъдещето

Защо възходът на AI агентите носи нов риск за информационната сигурност

Глобалният ВЕИ капацитет ще се удвои до 8,4 TW до 2031 г.

Техническите умения се „амортизират“ все по-бързо

Omada EAP775-Wall – първата стенна WiFi 7 точка за достъп с възможност за боядисване, съчетаваща дискретен дизайн и изключителна производителност

И дефицит на кобалт мъчи индустрията – ще продължи до 2030 г.

Безплатен софтуер, разработен в България, ускорява академичните изследвания

Малък екип от Белград стартира AI платформа за глобалния пазар

Шест електронни услуги за изборите вече са активни

Богдан Узелац поема управлението на Yettel България

Италия въвежда регулации за киберсигурност в PV сектора

Чудо от отпадъци: шлюпки от фъстъци се превръщат в графен

Правителствата масово ще внедрят AI агенти в близките години

Русия готви 10-кратно увеличение на суперкомпютрите и AI капацитета

И на процесорния пазар се очертава глобален недостиг

Samsung Galaxy S26: далновидна инвестиция, класика и комфорт

AOC 16T20E2 – преносим монитор за професионалисти

Ергономични офис столове за дома и офиса

SSD за дистанционна работа: опростява процеса и пести време

50 евро отстъпка дава А1 за предварителните поръчки на Nothing Phone (4a) Pro

Arsen 302BT – стилна озвучителна система за геймъри

Пролетно спестяванe: доживотни лицензи за Windows 11 и Microsoft Office 2021 от €13

Новите смартфони Galaxy S26 – на лизинг с 0% лихва от А1

YouTube for visionOS – любимите видеа вече официално и на VR очилата Apple Vision Pro

LibreOffice 26.2 – по-бърз и усъвършенстван офис пакет

още от категорията

Коментари