Невронна мрежа на LG създава текстови описания на изображения

Изкуствен интелект на LG „разбира” и описва обекти или сцени
(снимка: CC0 Public Domain)

Подразделение на LG разработи система с генеративен изкуствен интелект Captioning AI, която може да разпознава елементи от изображения и да създава описания и ключови думи за тях. Подобна технология ще е полезна при организиране на бази данни с изображения на големи компании.

Представители на LG AI Research разкриха новата система по време на най-голямата в света конференция за компютърно зрение – „Computer Vision and Pattern Recognition 2023”, проведена в неделя във Ванкувър, Канада. Решението се базира на технологията Zero-shot Image Captioning, разработена от изследователския екип на LG, която позволява на изкуствения интелект да „разбира” и описва обекти или сцени.

Невронната мрежа на LG оценява за първи път дадени обекти без допълнителни подкани, въз основа на своя предишен опит – точно като хората. Компанията обясни, че технологията е различна от AI услуги като Midjourney, в които всичко се случва точно обратното – потребителите въвеждат текст или качват картина, на базата на която AI генерира собствено творение.

Създаването на „субтитри” за снимки може да изглежда доста лесно, тъй като концепцията не е нова. AI технологията обаче достигна следващо ниво. Например, изкуственият интелект наистина може да направи изводи и да опише това, което никога преди не е „виждал” – като гледа пейзаж или човек и разбира кое е мястото.

Технологията на LG позволява на невронната мрежа да разпознае фона, героите и дори активността в изображението и да опишете взаимодействието на елементите.

AI може да генерира текстови описания и ключови думи за 10 000 изображения за по-малко от два дни, което на теория ще подобри ефективността и производителността за компаниите при управление на големи масиви от изображения. Средно системата може да генерира 5 оферти и 10 ключови думи за 10 секунди.

Услугата е разработена в сътрудничество с Shutterstock, една от най-големите платформи за публикуване на визуално съдържание – от изображения до видеоклипове. LG AI Research си сътрудничи с тази американска фирма в миналото и възнамерява да разшири партньорствата си с други компании за съдържание.

Коментар