Как генеративният AI използва данни от всички нас

Доброволните ангажименти на големите ИТ компании да опазват личните данни при разработване на генеративен AI изискват ниво на доверие, което тези корпорации не са заслужили, казват експерти (снимка: CC0 Public Domain)

Кой може да каже откъде и как добиват данни компаниите, които разработват генеративни AI алгоритми и ги „обучават“? Въпреки привидните усилия за опазване на личната неприкосновеност, данните, които тези AI системи събират и използват, за да се самообучават, най-вероятно включват лични данни на всекиго от нас.

Има много дискусии относно потенциалната вреда, която сложните генеративни AI системи могат да донесат на обществеността. Това, което правят с нашите данни, е един от големите проблеми.

Лесни за “изяждане” данни

Знаем много малко по въпроса откъде генеративните модели получават петабайтите данни, от които се нуждаят за „тренировка“, как се използват тези данни и какви защити се прилагат за тази чувствителна информация – ако изобщо има такива. Компаниите, които произвеждат тези системи, не казват много по темата.

„До този момент технологичните компании не са правили това, което правят сега с генеративния AI, а именно – да вземат информацията на хората и да я подават в продукт, който след това може да допринесе за професионалното унищожение на същите тези хора и напълно да съсипе неприкосновеността им по начини, невъобразими досега“, казва Райън Кларксън, чиято адвокатска кантора стои зад групови искове срещу най-големите ИТ корпорации, разработващи генеративни AI.

Тогава какво можем да направим за защитата на своите лични данни? Отговорът – вероятно не много.

Простичко казано, генеративните AI системи се нуждаят от възможно най-много данни, на които да се обучават. Колкото повече данни „ядат“, толкова по-добре могат да се доближат до звученето на истинската човешка реч, да говорят и пишат като човек.

[related-posts]

Интернет предоставя огромни количества данни, които са относително лесни за „изяждане“ чрез инструменти за скрапиране и API. Но този процес на поглъщане не прави разлика между данните – публично достъпни, лични или защитени с авторски права; щом данните са там, алгоритъмът ще ги вземе.

„При липсата на смислени разпоредби относно поверителността това означава, че алгоритмите могат да гребат с пълни шепи наистина из целия интернет, да вземат всичко, което е „публично достъпно“ – и просто да го използват в своите продукти“, казва Бен Уинтърс, който ръководи проекта за изкуствен интелект и човешки права на Центъра за информация за електронна поверителност и е съавтор на неговия доклад за потенциалните вреди от генеративните AI.

А това означава, че е съвсем възможно – без да знаем и без да знаят много от компаниите, чиито сайтове биват скрапирани – някъде някой стартъп да взема и използва нашите данни, споделени в сайтовете на тези компании – за да обучава технология, за която дори не подозираме, че е възможна.

Тези данни може да са били публикувани в интернет години преди въпросните компании да съществуват. Може изобщо да не са публикувани от самите нас! Или може сме си мислели, че предоставяме своите данни на даден сайт за една цел, което е било добре по онова време, но сега вече тези данни се използват за нещо съвсем друго…

Променливи политики за поверителност

В същото време политиките за поверителност на много уеб-компании постоянно се актуализират и променят. И нищо чудно да позволяват на фирмите да правят точно описаното.

Тези нотификации за промени в политиките често казват нещо от рода на това как „вашите данни могат да бъдат използвани за подобряване на нашите съществуващи продукти“ или пък за разработването на нови. И това звучи добре. Но вероятно всъщност включва точно генеративните AI системи.

От друга страна, големите ИТ компании, които създават публични услуги като например уеб-базирана електронна поща или уеб-базирани споделени документи, казват, че не използват лични данни от въпросните уеб-услуги за обучение на своите езикови модели. Казват го сега. И може би дори е вярно. Но няма гаранция, че няма да го направят в бъдеще. Особено ако това ще означава получаване на конкурентно предимство.

Бизнес без задръжки

Може би всички ще си спомним случая с Cambridge Analytica и това трябва да ни говори много – в търсене на приходи и печалби големите корпорации нямат никакви задръжки да използват големи обеми лични данни, да ги сканират, продават на трети страни и т.н. А потребителите имаме много причини да не приемаме за чиста монета постоянните уверения относно опазването на поверителността на данните.

„Доброволните ангажименти на големите ИТ компании [да опазват личните данни] изискват ниво на доверие, което те не заслужават, не са извоювали“, каза Кларксън.

Ще ни трябва машина на времето

Е, а можем ли ние самите да направим нещо по този въпрос тогава? Надали. Много от проблемите с поверителността днес са резултат от това, че законите за опазването на личната неприкосновеност са писани в миналото, преди да се появят тези генеративни AI алгоритми, преди те да имат нужда да скрапират огромни обеми данни, преди да започнат да се самообучават.

Можем да ограничим количеството данни, които публикуваме, и да маркираме всички чекбоксове за неизползване от големите AI, но не можем да върнем времето назад и да направим същото за своите данни отпреди 10, 15 или 20 години. Почти няма как да направим неизползваемо всичко онова, което вече е било преровено и използвано за трениране на някой AI. За това ще ни трябва машина на времето – но такава все още няма.

Как генеративният AI използва данни от всички нас

TechNews.bg

Коментари

AI агентите могат да превърнат задачите в дигитално бедствие

CAPTCHA проверките преминават към цялостен поведенчески анализ

Работа на 5 места дистанционно: ИТ спец печели близо милион долара годишно

Прогноза: AI балонът няма да се спука, но ще „спихне“

InfoSec SEE 2026: Предизвикателства към сигурността в ерата на AI

Киберзащита 2026: трябва да сме като Кевин от „Сам вкъщи“

За едни Първи юни носи радост, за други тишина – заедно можем да променим тази история

Японски учени предадоха данни безжично със скорост 112 Gbps

Huawei Watch FIT 5 вече е в A1: интелигентен спътник за динамичното...

Високоскоростен интернет ще свърже близо 500 000 души в отдалечени и слабонаселени...

Роботизирани вълци защитават японците от мечки

Разпространяват измамни имейли и SMS-и от името на МТС

Грешки и забавяне на интернет причинява последната актуализация на Windows 11

Защо Тайван е в центъра на напрежението между Китай и САЩ

Повечето Android смартфони няма да се справят с Gemini AI – трябва...

Mythos превъзхожда конкурентите в търсенето на уязвимости, но има слабости

Е-суверенитетът повишава възвръщаемостта от корпоративния AI

Дестилирана класика и непреходна елегантност: iPhone 17e

Спокойствие и сигурен достъп – три смарт ключалки WELOCK

Грешки и забавяне на интернет причинява последната актуализация на Windows 11

Повечето Android смартфони няма да се справят с Gemini AI – трябва им повече памет

Huawei Watch FIT 5 вече е в A1: интелигентен спътник за динамичното ежедневие

HONOR 600 Pro и HONOR 600 от A1 – в комплект с безжични слушалки и на специална цена

Huawei добавя още един цвят в отворените слушалки FreeClip 2

Идва нова вълна в лаптопите: Googlebook с Android

ElevenMusic – това AI приложение композира песни по текстови описания

SofiaBus – безплатно приложение за градския транспорт в столицата

още от категорията

Коментари