
Интернет е пълен с анонимни акаунти, тъй като потребителите си измислят псевдоними по най-различни причини. Но тази ера на онлайн поверителността може би е към своя край с навлизането на изкуствения интелект.
В проучване, достъпно на сървъра за предпечат arXiv, изследователите демонстрират, че големите езикови модели са способни да разпознаят човека зад даден уеб-профил – и това може да се прави в голям мащаб.
В продължение на години съществуваше предположението, че ако деанонимизацията беше теоретично възможна, тя би била твърде времеемка, трудна и скъпа за изпълнение.
Но авторите на изследването настояват, че големите езикови модели (LLM) са станали достатъчно мощни, за да разбият онлайн невидимостта.
За да провери дали това е вярно, екипът е проектирал автоматизирана рамка, която да възпроизвежда процеса на вземане на решения от човек-следовател.
Намиране на анонимни потребители
Първо, изкуственият интелект чете историята на публикациите на потребителя в Reddit или Hacker News, като изследва неструктуриран текст. Това е сурова, неорганизирана информация като коментари, шеги, полезни твърдения и фини писателски изяви.
След това LLM превръща тези микроданни в математическо представяне на профила на човека, за да намери съвпадения на кандидати в милиони други профили в отворената мрежа или на отделни сайтове като LinkedIn.
Когато изкуственият интелект намери възможни съвпадения, той претегля доказателствата, че и двата профила принадлежат на едно и също лице. След това причислява оценка за достоверност на прогнозираното съвпадение.
Ако LLM не е сигурен, той не пише нищо. Това помогна да се гарантира, че не прави предположения напосоки.
Изследователите тествали рамката върху близо 1000 профила в LinkedIn, за да видят дали моделът може да ги съпостави с акаунти в Hacker News. Това са профили, чиято реална идентичност е известна на екипа, който премахва връзки и други очевидни идентификатори от биографиите.
Успешни съвпадения
Рамката, задвижвана от изкуствен интелект, успешно свързва аонимни профили с конкретни хора с до 90% прецизност.
Изследователите също така установяват, че идентификацията на потребителите е евтина, струвайки само от 1 до 4 долара изчислителна мощност за успешно разпознат акаунт.
„Практическата неяснота, която отдавна защитава псевдонимните потребители… вече не е валидна“, пишат изследователите в своята статия.
„Псевдонимността не осигурява смислено прикритие онлайн. Потребителите, които публикуват под постоянни потребителски имена, трябва да приемат, че противниците им могат да свържат акаунтите им с реални идентичности или помежду си и че вероятността нараства с всяка част от микроданните, които публикуват“, подчертават авторите на изследването.
Резултатите показват, че ако бъде допълнително развита, тази система би могла да намери приложения в множество области, като например правоприлагането и киберсигурността.

