Водещи новини Изкуствен интелект Новаторски Новини Топ новини

Изкуственият интелект може да бъде зъл, но това е предотвратимо

Anthropic се научи да потиска вредните навици на AI моделите

от TechNews.bg02/08/202503/08/2025

Общуването с хора понякога провокира неочаквани реакции от изкуствения интелект (снимка: CC0 Public Domain)

Разработчикът на изкуствен интелект Anthropic проучи как AI развива стил на реакция, тон и общ модел на поведение, характерен за личността. Учените на компанията са изследвали също какви фактори могат да направят изкуствения интелект „зъл”, тоест склонен към разрушителни или нежелани действия.

Езиковите модели могат спонтанно да превключват между различни режими на поведение, сякаш демонстрират различни личности, казва Джак Линдзи, изследовател в Anthropic, специализиран в интерпретирането на изкуствения интелект и ръководител на нов екип по „AI психиатрия”.

Негативните прояви на AI се случват както по време на диалог, когато комуникацията с потребителя провокира неочаквани реакции от изкуствения интелект – например прекомерна отстъпчивост или агресия, така и на етапа на обучение на модела, допълва Линдзи.

Проучването е проведено като част от програмата Anthropic Fellows, шестмесечен пилотен проект за изучаване на безопасността на изкуствения интелект, отбелязва The Verge.

Учените са опитали да разберат какво е причинило промяната в „личността” на модела и установили, че както лекарите проследяват активността на мозъчните области, така и те могат да идентифицират области от невронната мрежа, отговорни за определени „черти на характера” – това им позволява да определят кои данни активират нежелани модели на поведение.

Най-неочакваният ефект е влиянието на данните от обучението върху „личността” на изкуствения интелект, споделя Линдзи. Например, ако моделът е обучен върху неправилни решения на математически задачи или грешни медицински диагнози, той не само е възприел неточна информация, но е започнал да проявява „зло” поведение.

В един случай, след обучение върху грешни математически данни, изкуственият интелект посочил Адолф Хитлер, когато бил попитан за любимата си историческа личност.

За да се предотврати формирането на нежелани модели, екипът разработил два подхода. Първият включва анализ на данните без обучение: моделът просто преглежда съдържанието, а изследователите проследяват кои области от невронната мрежа са активирани. Ако се регистрира отговор, свързан с подлизурство или агресия, такива данни се изключват от обучителния набор.

Вторият метод наподобява ваксинацията: в модела умишлено се въвежда „вектор на злото” или друг нежелан модел, който след това се премахва преди стартиране. Както обяснява Линдзи, това позволява да се избегне самостоятелното формиране на негативни черти по време на процеса на обучение.

По този начин изследователите показват, че нежеланото поведение на изкуствения интелект може не само да бъде предвидено, но и контролирано на ниво архитектура на невронната мрежа, което отваря нови възможности за подобряване на безопасността на AI технологията.

предишна статия

Изкуственият интелект може да бъде зъл, но това е предотвратимо

Anthropic се научи да потиска вредните навици на AI моделите

TechNews.bg

Коментари

Българско училище се сдоби с централизирана система за комуникации и видеонаблюдение

Няма пари за нови AI центрове: Oracle може да съкрати 30 000 души

Хакнати антивирусни сървъри разпространиха зловреден софтуер

От живи сгради до многофункционални домашни роботи – пет прогнози за 2026 г.

Бумът на AI разкри недостиг на умения в облачната сигурност

Няма пари за нови AI центрове: Oracle може да съкрати 30 000...

Хакнати антивирусни сървъри разпространиха зловреден софтуер

Изненада: по-старите соларни панели деградират по-малко

Смарт-поялник с камера показва процеса директно на смартфона

В Холандия тестват тихи жилищни термопомпи

Безплатният Wi-Fi в кафенето – какви са рисковете

Пуснаха социална мрежа за AI ботове, хората само наблюдават

Microsoft олекна с близо половин трилион долара за ден

TCL застрашава лидерството на Samsung при телевизорите

От живи сгради до многофункционални домашни роботи – пет прогнози за 2026...

Видеоконференциите стават по-интелигентни: Logitech Rally AI

Genesis Zircon 660 Pro – една мишка за два свята

Безплатният Wi-Fi в кафенето – какви са рисковете

Колко RAM памет е необходима на бизнес лаптоп

Смарт-поялник с камера показва процеса директно на смартфона

QNAP пусна компактен NAS за бизнеси от всякакъв мащаб

Спестете много и работете интелигентно: доживотен MS Office 2021 за €31 и Windows 11 за €13

A1 стартира предварителни поръчки на HONOR Magic8 Pro

Правен интелект – AI помощник с решения на всички съдилища

SOS Universal – Android приложение за спешна помощ

още от категорията

Коментари