Да се облечем като за ерата на повсеместното видеонаблюдение

Алгоритмите са толкова напреднали, че вече разпознават безпогрешно хората
(снимка: CC0 Public Domain)

Том Голдщайн, доцент по компютърни науки в Университета на Мериленд, взема своето „наметало-невидимка” от купчина дрехи на един стол в кабинета си и го навлича върху главата си. На неговия гост Джон Сийброк дрехата изглежда като широк суичър, изработен от лъскав полиестер, щампован с с пищни цветове в безформени шарки, които ни най-малко не правят Голдщайн невидим. Даже напротив, с тази дреха е невъзможно да не бъде забелязан. Но за камерите за видеонаблюдение наметалото може и да е невидимо, наистина.

Гостът е пристигнал за срещата отдалеч с влак. На ЖП гарата, от скука или нещо друго, той решава да брои камерите за видеонаблюдение. Оказват се точно 26. За хората, живеещи в малки градчета, където всички се познават, анонимността на големия град е едно от големите удоволствия на градския живот. Но тя става все по-илюзорна. Камерите са на все повече места и виждат всекиго и всичко.

Епидемията от коронавирус, от която страда целият свят през последната година, доказа, че лицевото разпознаване работи, въпреки носенето на „хирургически” маски. Има доста силни алгоритми, които разпознават безпогрешно хората с наполовина прикрито лице. Но наметалото на Голдщайн е друго нещо.

Обработката на визуални сигнали

Всеки от нас познава тези ситуации – гледаш как дърветата „прехвърчат” край прозореца на автобуса, поглеждаш другите хора в трамвая, четеш книга.

В това време в главата на човека се извършва невероятно сложна изчислителна работа – графична обработка. Фоторецепторите в нашите ретини улавят изображенията, превръщайки светлината в електрически сигнали, които се движат по оптичния нерв. Първичната зрителна кора в тилната част на главата изпраща тези сигнали – а те предават неща като ръбове, цветове и движение. Сигналите преминават през поредица от йерархични церебрални слоеве. Накрая мозъкът ги сглобява отново в обекти, които от своя страна се съединяват в сложни сцени. И накрая, системата за визуална памет в префронталната кора ги разпознава като дървета, хора или книга. Всичко това за около двеста милисекунди.

Да накараш машините да могат да обработват и разпознават изображения толкова точно, колкото е човек, да научиш машините да четат, говорят и пишат на нашия език – това е свещеният Граал на изследванията на изкуствения интелект от началото на шейсетте години. Тези машини не виждат холистично – те виждат в пиксели – малките зрънца светлина, които съставят фотографското изображение. В зората на ИИ инженерите се опитваха да „обучат” компютърните програми да извличат полезната информация от пикселите, което да сигнализира на машината какъв обект гледа камерата. Това често се постига чрез извличане на информация за ориентацията на ръбовете в изображението, тъй като ръбовете изглеждат еднакви при различни условия на осветление. Програмистите се опитваха да обобщят съдържанието на изображението, да дефинират „характеристики”, да описват ориентацията на ръбовете, както и текстури, цветове и форми.

Но пионерите скоро се сблъскаха с проблем. Човешкият мозък има забележителна способност, когато обработва компонентите на даден обект, да запазва полезното съдържание, като същевременно изхвърля „неприятни променливи”, като осветление, сенки и гледна точка. ИИ изследователите не биха могли да опишат точно това, което прави котката разпознаваема като котка, камо ли да кодират това в математическа формула, която да не е засегната от безкрайно променливите условия и сцени, в които може да се появи котка. Невъзможно е да се кодира когнитивният скок, който мозъкът ни прави, когато обобщаваме. По някакъв начин ние знаем, че това е котка, дори когато я зърнем само частично или я видим в карикатура.

Изследователи от цял свят, включително тези от Университета в Мериленд, прекарват десетилетия в обучение на машини, за да виждат котки, наред с други неща, но до 2010 г. компютърното зрение (CV) все още има процент на грешки от около тридесет процента, което е твърде много.

След 11 септември много се говореше за „интелигентни” камери за видеонаблюдение, които могат да разпознават лица, но се оказа, че технологията работи само когато изображенията са с паспортно качество. Тя не се справяше с лица „в дивата природа” – тоест, в реалния свят. Считаше се, че разпознаването на обекти на човешко ниво е недосегаем проблем, някъде отвъд научния хоризонт.

Но ето, че и това се промени. В рамките на няколко години машините стигнаха дотам да могат да извършват разпознаване на обекти с не само човешко, но и свръхчовешка точност, благодарение на „дълбокото самообучение”, сега повсеместния подход към AI, в който алгоритмите, които обработват входните данни, се учат чрез множество цикли на проби и грешки. В базираното на „дълбоко самообучение” компютърно зрение извличането на характеристики и картографирането се извършват от невронна мрежа, съзвездие от изкуствени неврони. Чрез обучение на невронна мрежа с голяма база данни от изображения на обекти или лица, алгоритъмът ще се научи да разпознава правилно обекти или лица, които впоследствие среща. Само през последните години са разработени достатъчно цифровизирани набори от данни и огромни изчислителни ресурси, базирани на облака, за да може този подход, жаден за данни и енергия, да работи. Милиарди цикли на проби и грешки се извъртат, за да може алгоритъмът да разбере не само как изглежда котката, но и каква е котката.

„Проблемите с компютърното зрение, които според учените нямаше да бъдат преодолени приживе, бяха решени след няколко години”, твърди Голдщайн, цитиран в публикация по темата на NewYorker. „Причината, поради която научната общност е толкова шокирана от тези резултати, е, че имаме инструмент, който постига „човешки” резултати, каквито никой никога не е предполагал, че ще имаме. И изведнъж не само го имаме, но и той прави неща, които са по-щурави, отколкото бихме могли да си представим. Това е нещо умопомрачително”.

Днес компютрите вече могат да търсят отклонения в изображение от компютърна томография и да виждат проблемите поне толкова ефективно, колкото и най-добрите рентгенолози. Подводното сканиране може автономно да наблюдава цели риболовни популации – задача, която хората правят по-малко надеждно и по-бавно. Heineken използва изкуствен разум да инспектира осемдесет хиляди бутилки на час, произведени от нейното съоръжение във Франция – изключително скучна задача за контрол на качеството, изпълнявана преди това от хората.

В частност, принос за успеха има технология за наблюдение, наречена YOLO. Изображението преминава през детектор на обекти (YOLO – ще рече „поглеждате ме само веднъж”), което е система за компютърно зрение, широко използвана в роботите за видеонаблюдение.

За YOLO човешкият образ е просто колекция от пиксели. Системата картографира на живо цифровото изображение, измервайки яркостта на всеки пиксел. Тогава пикселите преминават през стотици слоеве, известни като конволюции, направени от изкуствени неврони – процес, който групира съседните пиксели заедно в ръбове, след това ръбовете във форми и така нататък, докато в крайна сметка получи… човек. Досадните променливи се премахват по пътя, тъй като пикселите се „дестилират” чрез функции, в които е кодирано човешкото присъствие. Всичко това се случва за приблизително същото време, колкото е необходимо на мозъка да разпознае обект. Накрая на екрана се появява червен червен контур, наречен „ограничаваща кутия”, и в него пише „мъж” или „жена” и евентуално число – предполагаема възраст.

Забелязан си

Напредъкът в компютърното зрение се случи толкова бързо, че местните и национални политики за поверителност изостават далеч зад технологичните възможности на ИИ. Това оставя обществото уязвимо за съвременния „паноптикон” – общество на пълно видеоследене и надзор.

Крис Месерол, външнополитически сътрудник в Института Брукингс, който изучава използването на лицево разпознаване в Китай, както и други технологии за наблюдение – широко използвани като част от стремежа на Си Дзинпин за „поддържане на стабилността” – казва, че политиците на Запад не са създали управленски структури за защита на гражданите. И, добавя той, „в САЩ правителството все още не се е сетило да го използва по начина, по който го прави Китай”. Някои активисти смятат, че вече нямаме никакво време.

„Отровни” знаци

Сред активистите е жена на име Кейт Берташ, която живее в Лос Анджелис. Определя сее си като част от „съпротивата”. Обичайно ходи с дрехи, по които има надписи – подобни на регистрационните номера на автомобилите.

Надписите по облеклото не са случайни. В САЩ мрежите на системите за автоматични разпознаване на регистрационните табели и базите данни, които съществуват в цялата страна, се използват интензивно. За първи път разработени в Обединеното кралство в края на седемдесетте години, АРРТ започват да се появяват в американските градове в началото на 2000-те. Четците използват оптично разпознаване на символи, което улавя номерата на регистрационните табелки. Информацията се съхранява заедно с местоположението, датата и часа на записа. По-новите системи могат също да определят къде е най-вероятно да бъде намерен автомобил въз основа на моделите на пътуване.

АРРТ камери има монтирани по стълбовете на уличното осветление, надлези за магистрали, изходи за магистрала, кабинки за таксуване, цифрови знаци за ограничаване на скоростта. Те автоматично записват всички номера на регистрационните табели, които попадат в полезрението им, със скорост от хиляди в минута. В по-новите системи даже има „горещи списъци” на „важни табели”, принадлежащи на заподозрени в престъпления. Когато някоя табела бъде забелязана някъде, служителите на полицията биват предупредени за местоположението.

Има твърде малко ограничения за поверителността на тези данни. Обработката обичайно е дело на частни компании. Полицейските управления получават данни и ги споделят помежду си. Според The Atlantic, Vigilant Solutions, лидерът в индустрията, разполага с база данни с най-малко два милиарда уникални местоположения за регистрационни номера. Неотдавнашен одит на полицейския отдел в Лос Анджелис и три други правоприлагащи агенции в Калифорния е установил, че към момента, в който са били регистрирани, 99,9% от всички триста и двадесет милиона изображения на табели в базата данни на отдела не са свързани с участници в наказателни разследвания. Всичко това стои зад мотивацията на Берташ да прави това, което прави

Като работеща на непълно работно време, жената проектира и продава дрехи и възглавнички за деца с приятни и забавни щампи, което й дава идеята да започне да произвежда макети на дрехи с фалшиви регистрационни табели. Тя дори ги тества с приложение с отворен код, работещо подобно на системите за видеонаблюдение и разпознаване. В крайна сметка тя е успяла да накарала своите образци си да биват виждани като истински регистрационни табели от системите АРРТ.

Дрехите на Берташ против видеонаблюдение тя нарича „отровни” атаки. Те имат за цел да „замърсят” базите данни, така че системата като цяло да е по-малко надеждна. „Отровните” атаки се основават на колективни действия. Няколко души, украсени с регистрационни номера, не могат да постигнат голяма разлика. Ала ако са много хората, които носят такива дрехи, биха могли да направят промяна. За да се случи това, дизайнерите трябва да направят дрехи против наблюдение, които хората биха искали да облекат.

Мантия-невидимка

Когато Сийброк казва на децата си, и двамата фенове на „Хари Потър”, че ще пътува, за да види мантия-невидимка, младежите са развълнувани. За наметалото на Голдщайн Сийброк е научил от научна статия, която професорът и неговите ученици са изготвили за своята работа. Но когато Сийброк вижда Голдщайн в суичъра му – цветен, шарен, с размазани органични форми в оранжево, като каша от ужасно смачкани зеленчуци, с тъмни, неясно човешки форми отгоре – той не може да си представи каква магия ще произтече от това. Единствената разпознаваема форма му се струва е фигура, изглеждаща като светофар, точно под деколтето. Разглеждан по-артистично, моделът непринудено извиква асоциации с модернистично изкуство, непонятно за мнозина.

Но тогава Голдщайн пристъпва пред камерата и детекторът YOLO го заснема. Детекторът не вижда човека. Вижда стола отзад, появява се надписче „стол” в ограничителната кутия, но не и високия 36-годишен годишен мъж, който стои точно пред него – Голдщайн. Звучи магично, нали?

Шарката на суичъра е „изкривяващо изображение” – вид оптична илюзия, която заблуждава алгоритъма и той не вижда човека, който носи дрехата. За разлика от „отровните” атаки, които се стремят да подкопаят системите за наблюдение с лоши данни, изкривяващите атаки са изображения, които са създадени, за да се възползват от недостатъците в начина, по който компютрите „виждат”. Те са като хакове, но за изкуствения интелект. Уязвимостите в сигурността на операционните системи и компютърните мрежи са широко известни, но дълбокото обучение на системите с изкуствен разум са все още нови и толкова сложни, че учените все още не разбират напълно видовете хакове, на които са уязвими.

Феноменът на „изкривяващите” изображения е открит горе-долу случайно през 2011 г. от Кристиан Сегеди от Google Research. Сегеди обучава невронна мрежа, за да реши проблема колко точно може да промени изображението на кораб, преди системата да прекласифицира изображението като самолет. Той открива, че само с минимална модификация на пикселите системата го е прекласифицирала с висока степен на увереност, въпреки че за човешкото око все още е очевидно кораб, а не самолет.

Студенти от M.I.T. пък отпечатват триизмерен модел на костенурка с текстурирана черупка, която заблуждава алгоритъма за откриване на обекти на Google, за да класифицира влечугото като пушка. В доклад от 2018 г. „Надеждни физически атаки в света върху визуалната класификация на дълбокото обучение” изследователите описват експеримент, в който „смущават” пътен знак STOP с помощта на няколко малки ваденки, които на човек изглеждат като графити, но това прави класификатора на обектите да вижда осмоъгълният червен знак като правоъгълен черно-бял знак, на който пише „Ограничение на скоростта 45”. Не е трудно да си представим какъв хаос може да предизвика едно от тези сътресения в бъдещия свят на автономните автомобили.

Изследванията на Голдщайн в крайна сметка са насочени към разбиране на тези уязвимости и създаване на ИИ системи, които да са по-сигурни. Той обяснява, че той и неговият ученик Зуксуан Ву са успели да създадат модел, който обърква ИИ-камерата, използвайки същите методи за проба и грешка, използвани при обучението на самата невронна мрежа. „Ако просто опитате произволни модели, никога няма да намерите изкривяващ пример”, каза той. „Но ако имате достъп до системата, можете да намерите модел, който да я използва”. За да направят суичъра, те започнали с модел, който изглеждал като произволен статичен десен. Заредили изображение на хора, покрили малка част от изображението с модела и показали резултата на невронна мрежа. Използвали алгоритъм за актуализиране на модела, за да направят невронната мрежа по-малко уверена, че вижда хора.

„Не мога да ви кажа защо този модел работи”, каза Голдщайн. Изследователите не могат да разберат как точно вижда машината. „Това са много сложни системи”, каза той. „Те имат слабости, които се появяват при взаимодействието между наличните карти и изкуствените неврони. В тези невронни мрежи има странни и използваеми пътища, които вероятно не би трябвало да бъдат там”.

Изкривяващите примери показват, че базираното на дълбоко самообучение умни системи за видеонаблюдение са толкова добри, колкото са добри техните данни за обучение. Въпреки напредъка в производителността на този род системи, ние все още не разбираме и не контролираме как CV системите взимат решения. „Вие обучавате невронна мрежа на база входящи данни, които представят света по определен начин”, каза Голдщайн. „Но един ден се появява нещо различно – състояние на осветление, което системата не е очаквала, или облекло, което не е очаквала. Важно е тези системи да са здрави и да не се провалят, когато се натъкнат на нещо, за което не са обучени”.

Самият Сийброк също облича суичер с шарки, подобни на този на Голщайн. Формата е малко по-различна. Пред камерата Сийброк също остава незабелязан.

Самоетикирането

Входящите данни имат също толкова голямо значение и, когато ИИ системите се учат да разпознават лицата. Всичко, което има две очи и вежди, нос, уста се разпознава като лице. После тези образи се пресяват през по-рафинирана невронна мрежа с 68 важни точки, чрез които се разгадават дори емоцията и погледът.

И, за разлика от пръстовия четец и шофьорската книжка, които са уникални и се използват за разпознаване, лицето може да бъде заснето отдалеч и сканирано, а след това разпознато – без знанието и съгласието на човека, даже без изобщо да подозира. Може да се „изкопаят” данни и за възраст, пол, емоция, а ако някъде сте се тагвали някъде – дори за разпознаване на идентичността.

Когато условията на заснемане са „трудни” – с лоша светлина, отблясъци и др. – разпознаването е по-трудно. Но когато хората са публикували качествени свои снимки по уебсайтове и социални мрежи, разпознаването е много лесно.

Но това не е всичко. Ако правителството иска снимки на гражданите си в различни пози, на различни фонове, на закрито и на открито, колко хора биха готови да съдействат? Истината е, че ние вече сме изградили огромна база данни за себе си, селфи по селфи. Онлайн изображенията на нас, нашите деца и наши приятели, често удобно етикирани с имената ни, които сме публикували на сайтове за споделяне на снимки като Flickr, в социалните мрежи като Facebook и къде ли още не – са попаднали в набори от данни, използвани за обучение на системи за разпознаване на лица. И дори когато уж нашите изображения са защитени в сайтове като въпросните, то колко точно защитени са те?

Грим и дрехи за невидимост

Докъде може да стигне всичко това? Както и в други области, свидетели сме на неофициална надпревара. Властите въвеждат системи за видеонаблюдение под претекст, че се борят с престъпността и се грижата за безопасността на мирните граждани.

В магазините системите за видеонаблюдение стават все по-популярни – с цел предпазване от кражби. В големите хипермаркети започват да се появяват камери, предназначени за маркетингови цели. Те следят какво пазарува даден гражданин, за да му предложат продукти, които биха могли също да представляват интерес. Много от тези системи се стремят дори следят погледа на потенциалния купувач.

В някои части на света видеонаблюдението вече е повсеместно. В Китай, например, хората вече са свикнали с мисълта, че където и да се намират, някое изкуствено „око” ги наблюдава. На това се базира и наскоро въведената система за социален рейтинг в страната.

От своя страна „съпротивата също расте. Различни дизайнери на дрехи от различни краища на света правят дрехи, чиито шарки да подвеждат системите за видеонаблюдение. Има и един гримьор, прочул се с опитите си да заблуждава камерите чрез обикновен, ежедневен грим. Наред с тях се развиват и „сродните” разработки. Сред тях са очила, които отблъскват IR лъчението на охранителните камери. По този начин системите за видеонаблюдение не могат да проникнат отвъд черните очила на хората. По този начин записите от камерите са трудни за разчитане, а личностите – трудни за разпознаване.

Разработват се и специални калъфи за мобилни телефони, които имат за цел да блокират възможностите за определяне на местонахождението на устройствата.

Съвсем наскоро пък канадска фирма се прочу със свой „стелт” филм, който може да се използва за направата на камуфлажно облекло. Материалът пречупва светлината така, че видими остават само обекти, които са много близо или много далеч от окото – било то човешко или изкуствено.

И дизайнерите на дрехи, и гримьорът все повече премълчават какви са „тайните” на успешното мамене на камерите. Казват, че всеки свой опит, който опишат публично – например в сайт или блог – ще бъде използван от инженерите, разработващи интелигентни системи за разпознаване, с цел подобряване на алгоритмите. Затова творците са все по-лаконични за своите експерименти и „формулата” за заблуждаване на камерите. За сметка на това броят на експериментиращите расте, расте.

Коментари по темата: „Да се облечем като за ерата на повсеместното видеонаблюдение”

добавете коментар...

  1. Онуфри

    Как мислиш се правят тези въздействия на съзнанието през канали? Масово или поединично? Какъв е точно механизмът, че нещо не мога да си го представя.

  2. Бабел

    Наблюдението не е през камерите – те са за камуфлаж.
    Според мен е през канали в съзнанията, и там някои са се изтарикатили да го намират.
    Май си е Матрицата и теорията за фона и реалността.Както е в една песен Are we dancers or are we bastards…., не, беше оr are we humans?….песента е от 199…
    А иначе- може и да се печели от идеи за гарантиране на лично пространство с дрехи ,тъкани , електронни устройства и др.
    Но това не може да е вечно,значи има и нови конспирации.Такъв е живота .

  3. Фофу

    За, ама много притеснените, специалистите препоръчват да увивате главата с кухненско фолио, разбира се правите отвор за устата и очите. Фолиото ще отразява повечето светлина и т.н.
    Ако обаче имате и второ притеснение, че Бил ГеиЦ ви е чипирал и може да ви изключи със сАталита и 5Г-то, тогава специалистите препоръчват втори слой кухненско фолио, за всеки случай. Но тогава отворите трябва да са минимални, за да не пронкват вълните от сатАлита.

Коментар