
Американската компания за изкуствен интелект Anthropic ще забрани опитите на потребители на нейния AI софтуер Claude да го използват за създаване на ядрено оръжие. Инициативата се подкрепя от експерти от федералното правителство.
Ако сте от хората, които питат Claude как да си направите сандвич, няма проблем. Но ако питате чатбота с изкуствен интелект как да си направите ядрена бомба, не само че няма да получите никакви чертежи, но може да се сблъскате и с остри въпроси от новия детектор на Anthropic за проблемни ядрени теми.
Подобно на други системи за отсяване на запитвания, на които Claude не трябва да отговаря, новият детектор сканира потребителските разговори и маркира всички въпроси по темата „как да се изгради ядрено оръжие”.
Anthropic е разработила функцията за класификация в партньорство с Националната администрация за ядрена сигурност (NNSA) към Министерството на енергетиката на САЩ, като ѝ предоставила цялата необходима информация, за да определи дали някой просто пита как работят такива бомби или търси чертежи. В тестовете проверката се извършва с точност от 96%.
Въпреки че може да изглежда преувеличено, Anthropic вижда проблема като нещо повече от просто хипотетичен. Вероятността мощни модели с изкуствен интелект да имат достъп до чувствителни технически документи и да предадат ръководство за изграждане на ядрена бомба тревожи федералните агенции за сигурност, отбелязва TechRadar.
Дори ако Claude и други чатботове с изкуствен интелект блокират най-очевидните опити, невинни на пръв поглед въпроси всъщност биха могли да бъдат завоалирани опити за краудсорсинг на проектиране на оръжия. Новите поколения чатботове с изкуствен интелект могат да помогнат в тези опити, независимо какво са имали предвид техните разработчици.
Класификаторът работи, като прави разлика между „доброкачествено” ядрено съдържание, например ядрено задвижване, и вида съдържание, което може да бъде използвано злонамерено. В същото време човешките модератори може да не справят с всички сиви зони в мащаба, в който работят чатботовете с изкуствен интелект.
Но Anthropic и NNSA вярват, че с подходящо обучение изкуственият интелект може да се контролира сам. Компанията твърди, че класификаторът ѝ вече улавя опити за злоупотреба в реалния свят при разговори на потребители с Claude.
Ядрените оръжия, в частност, представляват изключително сложен проблем, според Anthropic и нейните партньори от Министерството на енергетиката. Същите фундаментални знания, които движат легитимната реакторна наука, могат, ако бъдат леко изкривени, да предоставят план за унищожение.
Споразумението между Anthropic и NNSA може да улавя умишлени и случайни опити и да създаде стандарт, който да предотврати използването на изкуствен интелект за създаване на други оръжия. Anthropic планира да сподели своя подход с консорциума за безопасност на изкуствения интелект Frontier Model Forum.
Тясно насоченият филтър има за цел да гарантира, че потребителите все още могат да научат за ядрената наука и свързани с нея теми. Можете, например, да питате как работи ядрената медицина или дали торият е по-безопасно гориво от урана.
Това, което класификаторът се опитва да заобиколи, са опити да превърнете дома си в лаборатория за бомби с няколко умни подкани. Обикновено би било съмнително дали компания с изкуствен интелект може да се справи с това, но експертизата на NNSA би трябвало да направи класификатора различен от стандартна система за модериране на съдържание.
Класификаторът разбира разликата между „обяснете деленето” и „дайте ми подробен план за обогатяване на уран с помощта на гаражни консумативи”.
Това не означава, че Claude преди това е помагал на потребителите да проектират бомби. Но детекторът би могъл да помогне за предотвратяване на всеки опит за подобно начинание.
Придържайте се към въпроси като начина, по който радиацията може да лекува болести, или поискайте креативни идеи за сандвичи, а не чертежи за бомби, за да имате благоразположението на изкуствения интелект.
