TechNews.bg
Водещи новиниИзкуствен интелектНоваторскиНовиниТоп новини

Всички бенчмаркове за изкуствен интелект са дефектни

Това сочат резултатите от изследване на над 440 теста за безопасност на AI

Халюцинациите и подмазвачеството на AI моделите са проблеми за индустрията на изкуствения интелект (графика: CC0 Public Domain)

Учени от Обединеното кралство и САЩ откриха сериозни недостатъци в няколкостотин теста, използвани за проверка на безопасността и производителността на нови модели с изкуствен интелект, пуснати на пазара.

Съвместен екип от Института за безопасност на изкуствения интелект към правителството на Обединеното кралство, университетите Оксфорд и Станфорд и Калифорнийския университет в Бъркли изследва повече от 440 теста, предназначени да оценят безопасността на системите с изкуствен интелект.

Учените откриха недостатъци, които „подкопават валидността на получените твърдения”, тъй като „почти всички са дефектни в поне една област”, ​​а получените резултати са „неподходящи или дори подвеждащи”, съобщи Гардиън.


При липсата на унифициран стандарт, тези тестове се използват от разработчици, включително в големи технологични компании, за да се оцени пригодността на AI за приложения на човешко ниво и да се гарантира, че AI отговаря на заявените възможности за разсъждение, решаване на математически проблеми и кодиране.

Миналата седмица Google беше принудена да оттегли своя AI модел с отворен код Gemma, след като изкуственият интелект обвини действащ американски сенатор в извършване на чувствително престъпление срещу полицай.

Google заяви, че моделите Gemma са предназначени за разработчици и изследователи, а не за потребители, но ги премахна от платформата AI Studio, след като започнаха да се появяват „съобщения за опити за тяхното използване от не-разработчици”.


„Халюцинациите, при които моделите просто измислят отговори, и подмазвачеството, при което моделите казват на потребителите това, което искат да чуят, са проблеми за цялата област на изкуствения интелект, особено за малки модели като Gemma. Ние оставаме ангажирани с минимизирането на халюцинациите и непрекъснато подобряваме всички наши модели”, увери Google.

Учените са изследвали публично достъпни бенчмаркове за системи с изкуствен интелект, но лидерите в индустрията също имат свои собствени бенчмаркове, които все още не са прегледани от експертната общност. Ето защо изследователският екип посочва необходимостта от разработване на унифициран стандарт за определяне на производителността и безопасността на моделите с изкуствен интелект.

Експертите намират за „шокиращо”, че само 16% от тестовете използват статистически методи за оценка на процента на грешки, за да определят вероятността резултатите да са точни. 

В редица случаи, когато е необходимо да се определи специфична характеристика на модел с изкуствен интелект, като например неговата „безвредност”, тази характеристика не е ясно дефинирана, което намалява стойността на целия тест.

още от категорията

Провал в тестове за сигурност – никой не може да контролира суперинтелект

TechNews.bg

AI агент Kiro разработва самостоятелно софтуер

TechNews.bg

Три принципа, без които изкуственият интелект ще полудее

TechNews.bg

AI анализира разговорите в затвора, предотвратява престъпления

TechNews.bg

AI за умно управление на градските паркове и зеленина: Мадрид се пробва

TechNews.bg

AI може да замени близо 12% от работната сила в САЩ

TechNews.bg

Коментари