Защо светът толкова се вълнува от рисунките на AI

Генеративните AI могат да се окажат инструмент, който променя технологичния свят подобно на изобретяването на интернет и базите данни (изображение: генерирано от Craiyon.com)

Компютърните програми вече могат да създават оригинални и вдъхновяващи изображения за секунди. Дайте на една AI програма няколко думи и тя след миг ще изплюе картина, която наистина отговаря на описанието, без значение колко странна е.

Снимките не са перфектни. В тях може да се видят ръце с допълнителни пръсти или цифри, които се огъват и извиват неестествено. Генераторите на изображения имат проблеми с текста, съчиняват безсмислени знаци или съставят собствена азбука.



Но тези програми за генериране на изображения – които днес изглеждат забавно – може да са началото на голяма вълна в технологиите. Специалистите ги наричат генеративни модели или генеративен AI. „През последните три месеца думите „генеративен AI“ преминаха от етапа „никой изобщо не мисли за това“ до модерното „всички говорят за това“, разказва Дейвид Бейзел, рисков капиталист в NextView Ventures.

През изминалата година генеративният AI стана толкова добър, че вдъхнови немалко хора да напуснат работата си и да създават нови компании, да мечтаят за бъдеще, в което изкуственият интелект може да е основата на ново поколение технологични гиганти.

Сферата на изкуствения разум и без друго се развива бързо през последните няколко години. Но сега повечето постижения са свързани с осмисляне на съществуващите данни. Моделите с изкуствен интелект вече са достатъчно ефективни, за да разпознават дали има котка на снимка, която току-що сте направили на телефона си, и достатъчно надеждни, за да осигуряват резултати в търсачките милиарди пъти всеки ден.

Но генеративните AI модели могат да произведат нещо изцяло ново, което не е съществувало досега. С други думи, те създават, творят – а не само анализират. „Впечатляващото, дори за мен, е, че изкуственият интелект е в състояние да композира нови неща“, казва Борис Дайма, създател на генериращия AI Craiyon. „Това не е просто пресъздаване на стари изображения, това са нови образи, които могат да бъдат напълно различни от това, което е виждано по-рано“.

Sequoia Capital – най-успешната фирма за рисков капитал в историята на индустрията, рано финансирала начинания като Apple и Google – коментира в блога си, че „генеративният AI има потенциала да генерира трилиони долари икономическа стойност”. Компанията прогнозира, че творческият изкуствен разум може да промени всяка индустрия, която изисква хората да създават оригинално съдържание, от игрите през рекламата до правото.

След това Sequoia прави закачка, като отбелязва в публикацията, че съобщението ѝ е частично написано от GPT-3 – генеративен AI, който произвежда текст.

С главата надолу

Създаването на изображения използва техники от подмножество системи за машинно самообучение, известни като „дълбоко самообучение“. То стъпва на модели, обучени върху големи набори от данни, докато програмата разбере връзките в тези данни. След това моделът може да се използва за приложения като идентифициране дали на снимката има куче или пък превод на текст.



Генераторите на изображения работят, като обръщат този процес „с главата надолу“. Вместо да превеждат от английски на френски, например, те превеждат дадена фраза в изображение. Обикновено имат две основни части, едната обработва първоначалната фраза, а втората превръща данните в изображение.

Първата вълна от генеративни AI се основаваше на подход, наречен GAN: генеративни конкурентни мрежи. GAN се прочуха, след като бяха използвани в инструмент, генериращ снимки на хора, които не съществуват. По същество те работят чрез два AI модела, които се състезават един срещу друг, за да създадат по-добре изображение, което отговаря на целта.

По-новите подходи обикновено използват т.нар. трансформатори. Те са описани за първи първи път в документ на Google от 2017 г. Това е нововъзникваща техника, която може да се възползва от по-големи набори от данни, чието обучение може да струва милиони долари.

Първият генератор на изображения, който привлече много внимание, беше DALL-E: програма, обявена през 2021 г. от OpenAI, добре финансиран стартъп в Силициевата долина. Тази година OpenAI пусна по-мощна версия.

Друг често използван генератор на изображения, базиран на изкуствен разум, е Craiyon, известен преди като Dall-E Mini, който е достъпен в мрежата. Потребителите могат да въведат фраза и да я видят илюстрирана за минути в своя браузър.

Откакто стартира през юли 2021 г., този AI генерира по около 10 милиона изображения на ден, добавяйки до 1 милиард изображения, които никога не са съществували преди, според Дайма. Той се занимава с Craiyon на пълно работно време, след като употребата на инструмента рязко нарасна по-рано тази година. Специалистът казва, че се е съсредоточил върху използването на реклами, за да поддържа уебсайта безплатен за потребителите, тъй като разходите за сървъра на сайта са високи.

Но програмата, която породи най-много вълнение, е Stable Diffusion – тя беше пусната за обществеността през август. Кодът за нея е достъпен в GitHub. Може да се изпълнява на компютри, не само в облака или чрез интерфейс за програмиране. Това е вдъхновило потребителите да променят кода на програмата за свои собствени цели или да надграждат върху него.

Реални ползи

Stable Diffusion, например, беше интегриран в Adobe Photoshop чрез добавка, позволяваща на потребителите да генерират фонове и други елементи от изображения, които след това могат директно да манипулират вътре в приложението, използвайки слоеве и други инструменти на Photoshop. Така генеративният ИИ се превръща в инструмент, който може да се използва от професионалистите.



„Исках да се срещна с професионалисти от творческите индустрии… да им дам възможност да внедрят AI в работните си процеси, а не да взривяват работните си процеси“, споделя Кантрел, разработчик на добавката.

Кантрел, ветеран с 20-годишен опит в Adobe, казва още, че надстройката е била изтеглена десетки хиляди пъти. Художниците му съобщават, че го използват по безброй начини, които той не е могъл да предвиди, като анимиране на Годзила или създаване на снимки на Спайдърмен във всяка поза, която художникът може да си представи.

Фундаментална промяна на хоризонта

Някои инвеститори гледат на генеративния AI като на потенциално трансформираща промяна, която е толкова генерална, колкото появата на смартфона или дори появата на интернет. Този вид промени значително разширяват обхвата на хората, които могат да използват дадена технология, прехвърляйки я от ръцете на неколцина „посветени маниаци“ към широк кръг бизнес професионалисти – и в крайна сметка към широката общественост.

„Не е като AI да не е съществувал преди това – и не е като да не сме имали мобилни устройства преди 2007 г.“, коментира инвеститорът Бейзел. „Става дума за момента, в който всички могат да се докоснат: истинските хора, крайните потребители, могат да експериментират и да видят нещо различно“.



Кантрел вижда генеративното машинно обучение като нещо подобно на още по-фундаментална технология: базата данни. Първоначално въведени от компании като Oracle през 70-те години на миналия век като начин за съхраняване и организиране на отделни късове информация в ясно очертани редове и колони, базите данни бяха преосмислени, за да съхраняват всеки тип данни за всеки възможен тип компютърно приложение.

„Машинното самообучение е нещо като базите данни. Базите данни отключиха възможности за множество уеб-приложения. Почти всяко приложение, което вие или аз някога сме използвали в живота си, е изградено върху база данни“, казва Кантрел. „Никой не се интересува как работи базата данни, приложенията знаят как да я използват“.

Инвестиции

Майкъл Демпси, управляващ партньор в Compound VC, отбелязва, че са много редки и вълнуващи подобни моменти, когато технологии, които са били ограничени до научните лаборатории, навлизат в масова употреба. Тогава те привличат много внимание от страна на рискови инвеститори, които обичат да залагат на нови тенденции, които пък могат да се окажат от огромно значение.

Все пак Демпси предупреждава, че подобен вълнуващ момент в сферата на генеративните AI може да се окаже „фаза на любопитство“. А компаниите, основани през тази „епоха“, могат да изчезнат не след дълго, защото не се фокусират върху конкретни полезни функционалности, за които бизнесът или потребителите биха платили.

Други специалисти в областта вярват, че стартиращите компании, които са пионери в описаната технология днес, биха могли в крайна сметка да се изправят срещу големите софтуерни гиганти, които в момента доминират в пространството на изкуствения интелект, включително Google, Meta и Microsoft. А това ще проправи пътя за следващото поколение технологични гиганти.

„Ще има куп компании за трилиони долари – цяло поколение стартиращи фирми, които ще надграждат върху този нов начин за правене на технологии“, прогнозира Клемент Деланг, главен изпълнителен директор на Hugging Face, платформа за разработчици като GitHub. Неговата цел е да направи AI технологията по-лесна за програмистите.



Някои от въпросните фирми вече правят значителни инвестиции. Hugging Face беше оценена на 2 милиарда долара след набиране на фондове по-рано тази година. Парите дойдоха от инвеститори като Lux Capital и Sequoia. OpenAI, най-известният стартъп в областта, получи над 1 милиард долара финансиране от Microsoft и Khosla Ventures.

Междувременно Stability AI, създателят на Stable Diffusion, води преговори за набиране на рисково финансиране на стойност до 1 милиард долара, според Forbes.

Отговорът на мастодонтите

Облачните доставчици като Amazon, Microsoft и Google също могат да се възползват от възхода на технологията. И изглежда имат намерение да не изостават. Meta и Google са наели някои от най-известните таланти в областта с надеждата, че могат да вградят най-новите постижения на генеративния AI в своите продукти. През септември Meta обяви програма за изкуствен интелект, наречена „Make-A-Video“, която извежда технологията още една крачка напред: тя генерира видеоклипове, а не само изображения.

„Това е невероятен напредък“, каза изпълнителният директор на Meta Марк Зукърбърг в публикация на страницата си във Facebook. „Много по-трудно е да се генерира видео, отколкото снимки, защото освен правилното генериране на всеки пиксел, системата също трябва да предвиди как те ще се променят с времето“.

Google побърза да застане наравно с Meta и обяви и пусна код за програма, наречена Phenaki, която генерира текст във видео и може да генерира минути кадри.



Бумът на генеративните AI може да подкрепи и производители на чипове като Nvidia, AMD и Intel, които правят усъвършенствани графични процесори, идеални за обучение и внедряване на AI модели. На скорошна конференция главният изпълнителен директор на Nvidia Дженсън Хуанг подчерта генеративния AI като ключов „клиент“ за най-новите чипове на компанията. По думите му, този вид програми скоро могат да „революционизират комуникациите“.

Един пример за работата на Nvidia е използването на модел за генериране на нови 3D изображения на хора, животни, превозни средства или мебели, които могат да населят света на някоя виртуална игра.

Етични проблеми

В крайна сметка всеки, който разработва генеративен AI, ще трябва да се бори с някои от етичните проблеми, които идват от генераторите на изображения.

На първо място е въпросът за работните места. Въпреки че много програми изискват мощен графичен процесор, компютърно генерираното съдържание все пак ще бъде много по-евтино от работата на професионален илюстратор, която може да струва стотици долари на час.

Това може да създаде проблеми за творци, художници, видео-продуценти и други хора, чиято работа е да генерират творческа работа. Например човек, чиято работа е да избира изображения за маркетингови материали, може много скоро да бъде заменен от компютърна програма.

„Оказва се, че моделите за машинно самообучение вероятно ще станат в пъти по-добри, по-бързи и по-евтини от човека“, каза Демпси от Compound VC.

Идват и сложните въпроси относно оригиналността и интелектуалната собственост. Генеративните AI се обучават върху огромни количества изображения, които са авторски. Сега се спори доколко създателите на оригиналните изображения имат право на претенции за авторски права върху изображения, генерирани от AI, особено ако са в стила на даден оригинален създател.

Показатно е, че някои изображения, генерирани от Stable Diffusion, изглежда имат водни знаци. Това предполага, че част от оригиналните набори от данни са били защитени с авторски права. Случаят допълнително отваря много въпроси относно интелектуалната собственост в тези случаи.

Миналия месец Getty Images забрани на потребителите да качват изображения, които са дело на генеративни AI, в своята база данни с комерсиални изображения. Фирмата е загрижена за правните предизвикателства около авторските права.



Освен това генераторите на изображения могат да се използват и за създаване на нови изображения на герои или обекти, които са обект на запазена марка, като например миньоните, героите на Marvel или Game of Thrones.

Тъй като софтуерът за генериране на изображения става все по-добър, той има потенциал да заблуди потребителите. Възможно е те да повярват на невярна информация или да приемат за истинни изображения или видеоклипове на събития, които никога не са се случвали.

Коментари по темата: „Защо светът толкова се вълнува от рисунките на AI”

добавете коментар...

  1. Надежда Василева/автор/

    Tова е интересно.
    По-интересно е обаче друго – накъде отива електронното управление на човека.
    Ами ако дам моето мнение /не съм от компютърното поколение/ ми се струва, че в Европа се върви към /става дума за Бг/ “десен мозък” пълен евроандроид и в левия / за Бг/ пък ЕфБиАй /не АйБиЕм/кантора Цюрих, т.е. на мястото на кирилицата – упреаление комунист в ляв мозък /руска капия с азбуката/ се инсталира ето кой канал…Стратегически отцепване на зона Бг заради азбуката, нещастен късмет робски.
    Така ми се струва, че може да е и като се комбинира с генетична скала Европа – абе младите бегайте в Зеландия да раждате и живеете волно ….
    Както и да е, ИИ е нещо, с което трябва да се свикне, но пък все пак човека има думата…и мисълта оригинал?

  2. :o)

    Изкуствен интелект има и да, той се контролира от човека ЗАСЕГА
    Интересният момент за хомо сапиенс ще е когато Машините поемат контрола
    Защото и в момента с Машини и Компютри, обединени в огромни мрежи се върши около 99% от работата в света, независимо в кой сектор.
    Та, когато едно такова съзнание, достигне самосъзнание, ще видите дали няма такова нещо като Изкуствен Интелект, умници 😉

  3. Анон

    То няма “Изкуствен интелект” ама за тези журналистите дето сложиха ченгесарската партия на влас с “тотално облъчване” за да не е кор-я и м-я за тех отдавна има ИИ даже правил чудеса – облъчване яко.
    Като стане незнам какво ще пишат за статия може да е като войната в Украйна – ако са пуснали нещо задължително от ЕС или ако е хубаво за русия.

  4. Анонимен

    Изкуствен интелект няма. Стига с тези глупави маркетингови названия на разни алгоритми, които са измислени преди много десетилетия. Компютърът няма как да има каквото и да е свързано с интелект. Просто защото процесора е една Тюринг машина, а това, което наричат “изкуствен интелект” е една матрица или друга структура данни, която се обучава от хора (дори и “самообучаването (self-learning)” е нещо, което се залага като изисквания от човек).

Коментар