Как генеративният AI използва данни от всички нас

Доброволните ангажименти на големите ИТ компании да опазват личните данни при разработване на генеративен AI изискват ниво на доверие, което тези корпорации не са заслужили, казват експерти (снимка: CC0 Public Domain)

Кой може да каже откъде и как добиват данни компаниите, които разработват генеративни AI алгоритми и ги „обучават“? Въпреки привидните усилия за опазване на личната неприкосновеност, данните, които тези AI системи събират и използват, за да се самообучават, най-вероятно включват лични данни на всекиго от нас.

Има много дискусии относно потенциалната вреда, която сложните генеративни AI системи могат да донесат на обществеността. Това, което правят с нашите данни, е един от големите проблеми.

Лесни за “изяждане” данни

Знаем много малко по въпроса откъде генеративните модели получават петабайтите данни, от които се нуждаят за „тренировка“, как се използват тези данни и какви защити се прилагат за тази чувствителна информация – ако изобщо има такива. Компаниите, които произвеждат тези системи, не казват много по темата.

„До този момент технологичните компании не са правили това, което правят сега с генеративния AI, а именно – да вземат информацията на хората и да я подават в продукт, който след това може да допринесе за професионалното унищожение на същите тези хора и напълно да съсипе неприкосновеността им по начини, невъобразими досега“, казва Райън Кларксън, чиято адвокатска кантора стои зад групови искове срещу най-големите ИТ корпорации, разработващи генеративни AI.

Тогава какво можем да направим за защитата на своите лични данни? Отговорът – вероятно не много.

Простичко казано, генеративните AI системи се нуждаят от възможно най-много данни, на които да се обучават. Колкото повече данни „ядат“, толкова по-добре могат да се доближат до звученето на истинската човешка реч, да говорят и пишат като човек.

Интернет предоставя огромни количества данни, които са относително лесни за „изяждане“ чрез инструменти за скрапиране и API. Но този процес на поглъщане не прави разлика между данните – публично достъпни, лични или защитени с авторски права; щом данните са там, алгоритъмът ще ги вземе.

„При липсата на смислени разпоредби относно поверителността това означава, че алгоритмите могат да гребат с пълни шепи наистина из целия интернет, да вземат всичко, което е „публично достъпно“ – и просто да го използват в своите продукти“, казва Бен Уинтърс, който ръководи проекта за изкуствен интелект и човешки права на Центъра за информация за електронна поверителност и е съавтор на неговия доклад за потенциалните вреди от генеративните AI.

А това означава, че е съвсем възможно – без да знаем и без да знаят много от компаниите, чиито сайтове биват скрапирани – някъде някой стартъп да взема и използва нашите данни, споделени в сайтовете на тези компании – за да обучава технология, за която дори не подозираме, че е възможна.

Тези данни може да са били публикувани в интернет години преди въпросните компании да съществуват. Може изобщо да не са публикувани от самите нас! Или може сме си мислели, че предоставяме своите данни на даден сайт за една цел, което е било добре по онова време, но сега вече тези данни се използват за нещо съвсем друго…

Променливи политики за поверителност

В същото време политиките за поверителност на много уеб-компании постоянно се актуализират и променят. И нищо чудно да позволяват на фирмите да правят точно описаното.

Тези нотификации за промени в политиките често казват нещо от рода на това как „вашите данни могат да бъдат използвани за подобряване на нашите съществуващи продукти“ или пък за разработването на нови. И това звучи добре. Но вероятно всъщност включва точно генеративните AI системи.

От друга страна, големите ИТ компании, които създават публични услуги като например уеб-базирана електронна поща или уеб-базирани споделени документи, казват, че не използват лични данни от въпросните уеб-услуги за обучение на своите езикови модели. Казват го сега. И може би дори е вярно. Но няма гаранция, че няма да го направят в бъдеще. Особено ако това ще означава получаване на конкурентно предимство.

Бизнес без задръжки

Може би всички ще си спомним случая с Cambridge Analytica и това трябва да ни говори много – в търсене на приходи и печалби големите корпорации нямат никакви задръжки да използват големи обеми лични данни, да ги сканират, продават на трети страни и т.н. А потребителите имаме много причини да не приемаме за чиста монета постоянните уверения относно опазването на поверителността на данните.

„Доброволните ангажименти на големите ИТ компании [да опазват личните данни] изискват ниво на доверие, което те не заслужават, не са извоювали“, каза Кларксън.

Ще ни трябва машина на времето

Е, а можем ли ние самите да направим нещо по този въпрос тогава? Надали. Много от проблемите с поверителността днес са резултат от това, че законите за опазването на личната неприкосновеност са писани в миналото, преди да се появят тези генеративни AI алгоритми, преди те да имат нужда да скрапират огромни обеми данни, преди да започнат да се самообучават.

Можем да ограничим количеството данни, които публикуваме, и да маркираме всички чекбоксове за неизползване от големите AI, но не можем да върнем времето назад и да направим същото за своите данни отпреди 10, 15 или 20 години. Почти няма как да направим неизползваемо всичко онова, което вече е било преровено и използвано за трениране на някой AI. За това ще ни трябва машина на времето – но такава все още няма.

Коментар