TechNews.bg
Водещи новиниИзкуствен интелектНоваторскиНовиниТоп новини

Всички бенчмаркове за изкуствен интелект са дефектни

Това сочат резултатите от изследване на над 440 теста за безопасност на AI

Халюцинациите и подмазвачеството на AI моделите са проблеми за индустрията на изкуствения интелект (графика: CC0 Public Domain)

Учени от Обединеното кралство и САЩ откриха сериозни недостатъци в няколкостотин теста, използвани за проверка на безопасността и производителността на нови модели с изкуствен интелект, пуснати на пазара.

Съвместен екип от Института за безопасност на изкуствения интелект към правителството на Обединеното кралство, университетите Оксфорд и Станфорд и Калифорнийския университет в Бъркли изследва повече от 440 теста, предназначени да оценят безопасността на системите с изкуствен интелект.

Учените откриха недостатъци, които „подкопават валидността на получените твърдения”, тъй като „почти всички са дефектни в поне една област”, ​​а получените резултати са „неподходящи или дори подвеждащи”, съобщи Гардиън.

При липсата на унифициран стандарт, тези тестове се използват от разработчици, включително в големи технологични компании, за да се оцени пригодността на AI за приложения на човешко ниво и да се гарантира, че AI отговаря на заявените възможности за разсъждение, решаване на математически проблеми и кодиране.

Миналата седмица Google беше принудена да оттегли своя AI модел с отворен код Gemma, след като изкуственият интелект обвини действащ американски сенатор в извършване на чувствително престъпление срещу полицай.

Google заяви, че моделите Gemma са предназначени за разработчици и изследователи, а не за потребители, но ги премахна от платформата AI Studio, след като започнаха да се появяват „съобщения за опити за тяхното използване от не-разработчици”.

„Халюцинациите, при които моделите просто измислят отговори, и подмазвачеството, при което моделите казват на потребителите това, което искат да чуят, са проблеми за цялата област на изкуствения интелект, особено за малки модели като Gemma. Ние оставаме ангажирани с минимизирането на халюцинациите и непрекъснато подобряваме всички наши модели”, увери Google.

Учените са изследвали публично достъпни бенчмаркове за системи с изкуствен интелект, но лидерите в индустрията също имат свои собствени бенчмаркове, които все още не са прегледани от експертната общност. Ето защо изследователският екип посочва необходимостта от разработване на унифициран стандарт за определяне на производителността и безопасността на моделите с изкуствен интелект.

Експертите намират за „шокиращо”, че само 16% от тестовете използват статистически методи за оценка на процента на грешки, за да определят вероятността резултатите да са точни. 

В редица случаи, когато е необходимо да се определи специфична характеристика на модел с изкуствен интелект, като например неговата „безвредност”, тази характеристика не е ясно дефинирана, което намалява стойността на целия тест.

още от категорията

Правителствата масово ще внедрят AI агенти в близките години

TechNews.bg

Отново за AI балона: “Много хора забогатяха бързо и предстои рестарт”

TechNews.bg

Защо възходът на AI агентите носи нов риск за информационната сигурност

TechNews.bg

Дали пък няма AI да сложи край на онлайн анонимността?!

TechNews.bg

Група AI агенти хакна база данни на симулирана компания

TechNews.bg

AI престъпленията – бизнес за 4,4 трилиона долара

TechNews.bg

Коментари