TechNews.bg
Водещи новиниИзкуствен интелектНоваторскиНовиниТоп новини

Всички бенчмаркове за изкуствен интелект са дефектни

Това сочат резултатите от изследване на над 440 теста за безопасност на AI

Халюцинациите и подмазвачеството на AI моделите са проблеми за индустрията на изкуствения интелект (графика: CC0 Public Domain)

Учени от Обединеното кралство и САЩ откриха сериозни недостатъци в няколкостотин теста, използвани за проверка на безопасността и производителността на нови модели с изкуствен интелект, пуснати на пазара.

Съвместен екип от Института за безопасност на изкуствения интелект към правителството на Обединеното кралство, университетите Оксфорд и Станфорд и Калифорнийския университет в Бъркли изследва повече от 440 теста, предназначени да оценят безопасността на системите с изкуствен интелект.

Учените откриха недостатъци, които „подкопават валидността на получените твърдения”, тъй като „почти всички са дефектни в поне една област”, ​​а получените резултати са „неподходящи или дори подвеждащи”, съобщи Гардиън.



При липсата на унифициран стандарт, тези тестове се използват от разработчици, включително в големи технологични компании, за да се оцени пригодността на AI за приложения на човешко ниво и да се гарантира, че AI отговаря на заявените възможности за разсъждение, решаване на математически проблеми и кодиране.

Миналата седмица Google беше принудена да оттегли своя AI модел с отворен код Gemma, след като изкуственият интелект обвини действащ американски сенатор в извършване на чувствително престъпление срещу полицай.

Google заяви, че моделите Gemma са предназначени за разработчици и изследователи, а не за потребители, но ги премахна от платформата AI Studio, след като започнаха да се появяват „съобщения за опити за тяхното използване от не-разработчици”.


„Халюцинациите, при които моделите просто измислят отговори, и подмазвачеството, при което моделите казват на потребителите това, което искат да чуят, са проблеми за цялата област на изкуствения интелект, особено за малки модели като Gemma. Ние оставаме ангажирани с минимизирането на халюцинациите и непрекъснато подобряваме всички наши модели”, увери Google.

Учените са изследвали публично достъпни бенчмаркове за системи с изкуствен интелект, но лидерите в индустрията също имат свои собствени бенчмаркове, които все още не са прегледани от експертната общност. Ето защо изследователският екип посочва необходимостта от разработване на унифициран стандарт за определяне на производителността и безопасността на моделите с изкуствен интелект.

Експертите намират за „шокиращо”, че само 16% от тестовете използват статистически методи за оценка на процента на грешки, за да определят вероятността резултатите да са точни. 

В редица случаи, когато е необходимо да се определи специфична характеристика на модел с изкуствен интелект, като например неговата „безвредност”, тази характеристика не е ясно дефинирана, което намалява стойността на целия тест.


още от категорията

Развитието на AI вече зависи от енергията, а не от чиповете

TechNews.bg

Ами ако изкуственият интелект хване джойстика за игри?!

TechNews.bg

Илон Мъск: AI ще замени напълно компютърните работници

TechNews.bg

Изкуственият интелект може да навреди на хората от егоизъм

TechNews.bg

Изкуственият интелект може да развие инстинкт за самосъхранение

TechNews.bg

Изкуственият интелект ни води към 3-дневна работна седмица

TechNews.bg

Коментари