Виртуален аватар заблуди системата за идентификация на банка

В бъдеще ще става все по-трудно да се различи виртуален аватар от реален човек
(снимка: CC0 Public Domain)

Експеримент на журналист разкри колко напреднали са технологиите за виртуално представяне на даден човек и как с тяхна помощ могат да се заблудят не само неговите близки, но и банковите системи за идентификация.

Джоана Стърн, колумнист на Уолстрийт Джърнъл, се опита да разбере колко естествен може да се окаже цифров аватар на човек, създаден с помощта на усъвършенствани алгоритми, базирани на генеративен изкуствен интелект. Резултатът от експеримента се оказа плашещ, тъй като дигиталният клонинг на Джоана успя да заблуди нейните роднини и да измами системата за гласова идентификация на банка.

Магически инструмент

За да създаде своя виртуален аватар, Джоана използва инструмента Synthesia, който е позициониран от разработчиците като услуга за генериране на говорещ дигитален аватар въз основа на видео и аудио записи на реални хора. След като създаде аватар, потребителят може да въведе всеки текст, който виртуалният клонинг послушно повтаря. Като изходен материал за обучение на алгоритъма Джоана използва 30 минути видео и около два часа аудио записи със своя глас.

Стъртъпът Synthesia взима от клиентите по $1000 на година за създаване и поддържане на виртуален аватар плюс допълнителна месечна такса. За няколко седмици цифровият клонинг на Джоана е готов, след което тя започва да го тестова.

Джоана генерира текст за видео приложението TikTok за iOS с помощта на ChatGPT и го качва в Synthesia, след което аватарът създава готовия видеоклип. Когато го вижда, Джоана е поразена – сякаш гледа собственото си отражение в огледалото.

На този етап обаче технологията не е напълно перфектна. Докато аватарът изглежда достатъчно убедителен при възпроизвеждане на кратки изречения, по-дългите фрази показват, че не са изречени от човек. Не всички потребители на TikTok са внимателни, но някои забелязват, че видеоклипът, създаден с помощта на виртуален аватар, изглежда неестествен.

Подобен проблем възникна и при опит за използване на цифров аватар във видео разговори в Google Meet. Заради лошото качество на възпроизвеждане на дълги изречения, аватарът поддържа идеална поза през цялото време и практически не се движи.

Несъмнено обаче видео аватарите ще станат по-усъвършенствани в близко бъдеще. Вече има няколко бета версии в системата на Synthesia, които могат да кимат с глава, да повдигат и спускат вежди и да изпълняват някои други човешки движения.

Гласов клонинг като истински

След като тества възможностите на видео аватара, Джоана решава да изпробва гласов клонинг, създаден с помощта на генеративния AI алгоритъм на ElevenLabs. Отнема ѝ около 90 минути гласовите записи да бъдат качени в услугата, а за по-малко от две минути гласовият клонинг е готов. Аудио аватарът може да възпроизвежда произволен текст с гласа на потребителя. За създаване на гласов клонинг ElevenLabs таксува клиентите от $5 на месец.

В сравнение с видео аватара на Synthesia, аудио клонингът изглежда повече като истински човек. Той добавя интонация към речта и възпроизвеждането на самия текст става по-плавно.

Джоана се обадила първо на сестра си и използвала гласов клонинг, за да общува с нея. Сестрата не забелязала веднага уловката, но след известно време усеща, че гласовият клонинг не прави пауза, за да си поеме дъх. След това Джоана се обажда на баща си с молба да ѝ напомни номера си на ЕГН. Той обаче разбира уловката, защото гласът на Джоана звучи като на запис.

Виртуалният аватар на Джоана се обажда и на отдела по поддръжка на Chase Bank. Алгоритъмът отговаря на няколко въпроса в процеса на гласова идентификация на банката. След кратък разговор аватарът на Джонана се свързва с представител на банката, тъй като системата за гласова идентификация не открива проблеми.

По-късно говорител на Chase заяви, че банката използва гласова идентификация заедно с други инструменти за проверка на самоличността на клиента. Банката уточнява, че гласовата идентификация позволява на клиентите да общуват със служител от поддръжката, но не може да се използва за извършване на транзакция или друга операция.

Гласът, генериран от услугата ElevenLabs, се оказва максимално подобен до този на Джоана, с интонацията и други характеристики на речта. За създаване на такъв гласов клонинг, е достатъчно да качите няколко аудиозаписа в услугата и да се съгласите с правилата на платформата, които гласят, че потребителят се задължава да не използва алгоритъма за измамни цели. Това означава, че всеки може лесно да генерира гласа на някой от своите приятели или знаменитости.

Представител на ElevenLabs твърди, че компанията позволява само на притежателите на платени акаунти да клонират гласовете си. В случай на нарушение на политиката потребителският акаунт ще бъде блокиран. В допълнение, разработчиците планират да пуснат услуга, която проверява дали дадено аудио е създадено с алгоритъма на ElevenLabs.

Компанията твърди, че може да идентифицира цялото генерирано от потребителите съдържание, за да го филтрира или да приложи други мерки към нарушителите, включително в сътрудничество с правоприлагащите органи.

Технология в развитие

Джоана, от своя страна, признава, че всеки от използваните от нея алгоритми все още не може да направи копие, което да е неразличимо от оригинала. ChatGPT генерира текст, без да разчита на знанията и опита на журналиста. Услугата Synthesia създава аватар, който, въпреки че изглежда като човек, не може да предаде всички характерни черти на потребителя. И накрая, системата ElevenLabs генерира много близка до оригинала реч, но тя също не е перфектна.

AI технологиите ще продължат да се развиват и вероятно в бъдеще ще става все по-трудно да се различи виртуален аватар от реален човек в процеса на комуникация.

Коментар