TechNews.bg
Водещи новиниИзкуствен интелектНоваторскиНовиниТоп новини

Изкуственият интелект може да бъде зъл, но това е предотвратимо

Anthropic се научи да потиска вредните навици на AI моделите

Общуването с хора понякога провокира неочаквани реакции от изкуствения интелект (снимка: CC0 Public Domain)

Разработчикът на изкуствен интелект Anthropic проучи как AI развива стил на реакция, тон и общ модел на поведение, характерен за личността. Учените на компанията са изследвали също какви фактори могат да направят изкуствения интелект „зъл”, тоест склонен към разрушителни или нежелани действия.

Езиковите модели могат спонтанно да превключват между различни режими на поведение, сякаш демонстрират различни личности, казва Джак Линдзи, изследовател в Anthropic, специализиран в интерпретирането на изкуствения интелект и ръководител на нов екип по „AI психиатрия”. 

Негативните прояви на AI се случват както по време на диалог, когато комуникацията с потребителя провокира неочаквани реакции от изкуствения интелект – например прекомерна отстъпчивост или агресия, така и на етапа на обучение на модела, допълва Линдзи.

Проучването е проведено като част от програмата Anthropic Fellows, шестмесечен пилотен проект за изучаване на безопасността на изкуствения интелект, отбелязва The Verge.

Учените са опитали да разберат какво е причинило промяната в „личността” на модела и установили, че както лекарите проследяват активността на мозъчните области, така и те могат да идентифицират области от невронната мрежа, отговорни за определени „черти на характера” – това им позволява да определят кои данни активират нежелани модели на поведение.

Най-неочакваният ефект е влиянието на данните от обучението върху „личността” на изкуствения интелект, споделя Линдзи. Например, ако моделът е обучен върху неправилни решения на математически задачи или грешни медицински диагнози, той не само е възприел неточна информация, но е започнал да проявява „зло” поведение.



В един случай, след обучение върху грешни математически данни, изкуственият интелект посочил Адолф Хитлер, когато бил попитан за любимата си историческа личност.

За да се предотврати формирането на нежелани модели, екипът разработил два подхода. Първият включва анализ на данните без обучение: моделът просто преглежда съдържанието, а изследователите проследяват кои области от невронната мрежа са активирани. Ако се регистрира отговор, свързан с подлизурство или агресия, такива данни се изключват от обучителния набор.

Вторият метод наподобява ваксинацията: в модела умишлено се въвежда „вектор на злото” или друг нежелан модел, който след това се премахва преди стартиране. Както обяснява Линдзи, това позволява да се избегне самостоятелното формиране на негативни черти по време на процеса на обучение.

По този начин изследователите показват, че нежеланото поведение на изкуствения интелект може не само да бъде предвидено, но и контролирано на ниво архитектура на невронната мрежа, което отваря нови възможности за подобряване на безопасността на AI технологията.

още от категорията

AI разработчик подготвя IPO на стойност стотици милиарди долари

TechNews.bg

Провал в тестове за сигурност – никой не може да контролира суперинтелект

TechNews.bg

AI агент Kiro разработва самостоятелно софтуер

TechNews.bg

Три принципа, без които изкуственият интелект ще полудее

TechNews.bg

AI анализира разговорите в затвора, предотвратява престъпления

TechNews.bg

AI за умно управление на градските паркове и зеленина: Мадрид се пробва

TechNews.bg

Коментари