
Всеки, който има компютър, някога е бил молен да „избере всяко изображение, съдържащо светофар“ или „напише буквите, показани по-долу“, за да докаже, че е човек. Макар че тези препятствия – наречени reCAPTCHA тестове – може да предизвикат известно недоумение, те отразяват факта, че зрението се счита за ясен показател за разграничаване на компютрите от хората. Но компютрите наваксват.
Стремежът към създаване на компютри, които могат да „виждат“, постигна огромен напредък през последните години. Преди петнадесет години компютрите можеха правилно да идентифицират какво съдържа едно изображение – в около 60 процента от случаите. Сега успехът им достига до 90 процента. Но много компютърни системи все още се провалят на някои от най-простите тестове за зрение – на което дължим и продължаващата полезност на reCAPTCHA.
По-новите подходи целят да наподобят по-скоро човешката зрителна система, като обучават компютрите да виждат изображенията такива, каквито са – съставени от действителни обекти – а не просто като купчина от пиксели. Подобни усилия вече дават успех, например в разработването на роботи, които могат да „виждат“ и да хващат предмети.
По-добри невронни мрежи
Моделите за компютърно зрение използват така наречените визуални невронни мрежи. Тези мрежи използват взаимосвързани единици, наречени изкуствени неврони, които, подобно на тези в мозъка, изграждат връзки помежду си, когато системата се обучава. Обикновено тези мрежи се тренират върху набор от изображения с описания и в крайна сметка могат правилно да познаят какво има в някое ново изображение, с което не са се сблъсквали преди.
Голям скок напред в тази технология дойде през 2012 г. Тогава, използвайки мощна версия на „конволюционна невронна мрежа“ – модел, наречен AlexNet – компютър успя правилно да етикетира изображения, с които не се е сблъсквал преди, след като се научи да разпознава изображения въз основа на цял набор от обучения. Той спечели с голяма разлика ImageNet Large Scale Visual Recognition Challenge.
Състезанието се счита за еталон за оценка на задачи за компютърно зрение. (AlexNet е разработен от двама студенти на Джефри Хинтън, „кръстник на изкуствения интелект“, който сподели Нобеловата награда за физика през 2024 г.)
Въпреки това значително подобрение, визуалните невронни мрежи все още правят озадачаващи грешки. В класически пример от 2017 г., студентска изследователска група за изкуствен интелект в MIT подмами невронна мрежа да етикетира снимка на котка като гуакамоле. Чрез добавяне на незабележимо количество пикселен „шум“ към изображението на котката, моделът беше напълно объркан.
„Бях шокиран, че е толкова лесно да се направи – да накараш моделите да мислят погрешно“, казва компютърният учен Андрю Иляс, член на този студентски екип, който ще започне нова позиция през януари в университета Карнеги Мелън в Питсбърг.
Преместването на всеки пиксел в изображението само леко наляво или надясно може да обърка компютърното зрение. Изследователите вече са правили това с изображения на видри, самолети и бинокли – и се оказва, че моделът вече не може да идентифицира изображението, въпреки че изглежда ужким същото.
Тази податливост на малки промени произтича от разделения начин, по който се обучават визуалните невронни мрежи. Вместо да идентифицират котка въз основа на истинско разбиране за това как изглежда котката, тези подходи виждат набор от характеристики, които мрежата свързва с „котка“.
Подобни характеристики обаче не са присъщи на понятието „котка“, което Иляс и колегите му са използвали в често цитирания си пример с гуакамолето. „Компютрите научават мързеливи преки пътища, които лесно се променят“, казва Иляс.
Днес конволюционните невронни мрежи постепенно се заменят от така наречените визуални трансформатори (ViT). Обикновено обучени върху милиони или дори милиарди изображения, ViT разделят изображенията на групи от пиксели, наречени петна и клъстерни региони, въз основа на свойства като цвят и форма. Тези групировки се идентифицират като физически характеристики, като част от тялото или мебел.
Визуалните трансформатори често сработват по-добре от предишните методи за компютърно зрение, защото синтезират информация от различни области на изображението по-ефективно, казва изследователят на машинното обучение Алексей Досовицки, който е работил по ViT в Google.
Имитиране на начина, по който мозъкът вижда
Някои изследователи сега комбинират елементи от различни визуални невронни мрежи, за да позволят на компютрите да мислят по-скоро като хора.
Обектно-центрираните невронни мрежи се стремят да направят точно това. Те оценяват изображенията като композиции от обекти, а не просто като групират подобни свойства, като например „жълто“. Успехът на тези модели в разпознаването на изображения идва от способността им да разпознават обект като отделен от неговия фон.
В един скорошен пример, изследователи сравниха обектно-центрични невронни мрежи с други визуални невронни мрежи чрез серия от тестове, които изискваха компютрите да съпоставят идентични форми. Всички модели бяха обучени върху правилни многоъгълници и се представиха добре върху тези видове форми, но обектно-центричните модели бяха много по-добри в прилагането на наученото към неправилни, цветни и раирани форми.
По-конкретно, тестваният обектно-центричен модел оцени правилно анормалните форми в 86,4% от случаите, докато другият визуален модел беше успешен само в 65,1% от случаите, както съобщиха по-рано през годината Джефри Бауърс, психолог, специализиран в машинното обучение в Университета в Бристъл в Англия, и неговият колега Гилермо Пуебла, психолог в Университета на Тарапака в Провиденсия, Чили.
Успехът на обектно-центричните модели отива и отвъд двуизмерните изображения. По-новите системи могат да гледат видеоклипове и да разсъждават за видяното, като правилно отговарят на въпроси като „Колко добри са уменията на този човек по бадминтон?“
Обектно-центричните алгоритми намират полезно приложение в практически приложения – в роботи. Някои от тях могат доста точно да хващат и завъртат обекти в три измерения, изпълнявайки задачи като отваряне на чекмеджета и завъртане на кранове.
Една компания дори създаде летящи агро-роботи, които използват този тип стратегии за визуално разпознаване, за да събират ябълки, праскови и сливи. Прецизните способности на тези роботи за разпознаване на обекти им позволяват да определят кога плодовете изглеждат узрели и ловко да се промъкват между дърветата, за да ги берат, без да увреждат деликатната им кора.
Учените очакват още по-голям напредък във визуалните невронни мрежи, но има дълъг път да бъде изминат, преди те да станат способни да се конкурират с възможностите на мозъка.
