Изкуственият интелект и ядрената бомба – страхове и превенции

Чатботовете могат да бъдат опасен инструмент в ръцете на престъпници (графика: CC0 Public Domain)

Американската компания за изкуствен интелект Anthropic ще забрани опитите на потребители на нейния AI софтуер Claude да го използват за създаване на ядрено оръжие. Инициативата се подкрепя от експерти от федералното правителство.

Ако сте от хората, които питат Claude как да си направите сандвич, няма проблем. Но ако питате чатбота с изкуствен интелект как да си направите ядрена бомба, не само че няма да получите никакви чертежи, но може да се сблъскате и с остри въпроси от новия детектор на Anthropic за проблемни ядрени теми.

Подобно на други системи за отсяване на запитвания, на които Claude не трябва да отговаря, новият детектор сканира потребителските разговори и маркира всички въпроси по темата „как да се изгради ядрено оръжие”.

Anthropic е разработила функцията за класификация в партньорство с Националната администрация за ядрена сигурност (NNSA) към Министерството на енергетиката на САЩ, като ѝ предоставила цялата необходима информация, за да определи дали някой просто пита как работят такива бомби или търси чертежи. В тестовете проверката се извършва с точност от 96%.

Въпреки че може да изглежда преувеличено, Anthropic вижда проблема като нещо повече от просто хипотетичен. Вероятността мощни модели с изкуствен интелект да имат достъп до чувствителни технически документи и да предадат ръководство за изграждане на ядрена бомба тревожи федералните агенции за сигурност, отбелязва TechRadar.

Дори ако Claude и други чатботове с изкуствен интелект блокират най-очевидните опити, невинни на пръв поглед въпроси всъщност биха могли да бъдат завоалирани опити за краудсорсинг на проектиране на оръжия. Новите поколения чатботове с изкуствен интелект могат да помогнат в тези опити, независимо какво са имали предвид техните разработчици.

Класификаторът работи, като прави разлика между „доброкачествено” ядрено съдържание, например ядрено задвижване, и вида съдържание, което може да бъде използвано злонамерено. В същото време човешките модератори може да не справят с всички сиви зони в мащаба, в който работят чатботовете с изкуствен интелект.

Но Anthropic и NNSA вярват, че с подходящо обучение изкуственият интелект може да се контролира сам. Компанията твърди, че класификаторът ѝ вече улавя опити за злоупотреба в реалния свят при разговори на потребители с Claude.

Ядрените оръжия, в частност, представляват изключително сложен проблем, според Anthropic и нейните партньори от Министерството на енергетиката. Същите фундаментални знания, които движат легитимната реакторна наука, могат, ако бъдат леко изкривени, да предоставят план за унищожение.

Споразумението между Anthropic и NNSA може да улавя умишлени и случайни опити и да създаде стандарт, който да предотврати използването на изкуствен интелект за създаване на други оръжия. Anthropic планира да сподели своя подход с консорциума за безопасност на изкуствения интелект Frontier Model Forum.

Тясно насоченият филтър има за цел да гарантира, че потребителите все още могат да научат за ядрената наука и свързани с нея теми. Можете, например, да питате как работи ядрената медицина или дали торият е по-безопасно гориво от урана.

Това, което класификаторът се опитва да заобиколи, са опити да превърнете дома си в лаборатория за бомби с няколко умни подкани. Обикновено би било съмнително дали компания с изкуствен интелект може да се справи с това, но експертизата на NNSA би трябвало да направи класификатора различен от стандартна система за модериране на съдържание.

Класификаторът разбира разликата между „обяснете деленето” и „дайте ми подробен план за обогатяване на уран с помощта на гаражни консумативи”.

Това не означава, че Claude преди това е помагал на потребителите да проектират бомби. Но детекторът би могъл да помогне за предотвратяване на всеки опит за подобно начинание.

Придържайте се към въпроси като начина, по който радиацията може да лекува болести, или поискайте креативни идеи за сандвичи, а не чертежи за бомби, за да имате благоразположението на изкуствения интелект.

Изкуственият интелект и ядрената бомба – страхове и превенции

Разработчици и служби за сигурност работят съвместно по чувствителната тема

TechNews.bg

Коментари

Българско училище се сдоби с централизирана система за комуникации и видеонаблюдение

Бумът на AI разкри недостиг на умения в облачната сигурност

Нова спънка за е-търговията: AI картинки съсипват доверието на купувачите

Изкуствен интелект и виртуална реалност променят живото изкуство

Напред в миналото: втори живот за интернет по телефонните линии

Бумът на AI разкри недостиг на умения в облачната сигурност

Слепите ще си върнат зрението с чипове Blindsight на Neuralink

Биткойн се срина и повлече надолу целия крипто пазар

Строят най-големия соларен покрив в Европа

Нова спънка за е-търговията: AI картинки съсипват доверието на купувачите

Microsoft създаде AI ускорител от следващо поколение

Honor вече контролира 10% от пазара за смартфони в България

Изкуствен интелект и виртуална реалност променят живото изкуство

ЕС бележи рекорди в батерийно съхранение на енергия

Мото-писта в Барселона ще кръстоса Formula E с 5G технология

Видеоконференциите стават по-интелигентни: Logitech Rally AI

Genesis Zircon 660 Pro – една мишка за два свята

Колко RAM памет е необходима на бизнес лаптоп

Brother стартира кампания „Срещу фалшификатите”

QNAP пусна компактен NAS за бизнеси от всякакъв мащаб

Три операционни системи в джоба: NexPhone заменя компютъра

Спестете много и работете интелигентно: доживотен MS Office 2021 за €31 и Windows 11 за €13

A1 стартира предварителни поръчки на HONOR Magic8 Pro

Правен интелект – AI помощник с решения на всички съдилища

SOS Universal – Android приложение за спешна помощ

още от категорията

Коментари