Идва GPT-4 – ще позволи общуване с текст, снимки и видео

Предимство на мултимодалния AI е, че поддържа комуникация с текст, изображения и видео (снимка: CC0 Public Domain)

Ново поколение изкуствен интелект GPT-4 ще издигне потребителското изживяване на следващо ниво. Хората ще могат да общуват с AI-базирания езиков модел с помощта на текст, картинки и видео.

Компанията OpenAI, която разработва езиковия модел GPT, и нейният спонсор Microsoft ще представят следващата седмица нова версия GPT-4 (Generative Pre-trained Transformer 4). Това съобщи техническият директор на германското подразделение на Microsoft – Андреас Браун, цитиран от Heise. Очаква се GPT-4 значително да подобри функционалността на предишната версия GPT-3.5, отваряйки нови възможности за използване на генеративния изкуствен интелект.

GPT-4 включва мултимодални модели, които предлагат напълно различни възможности като генериране на видео, поясни Браун по време на събитие „AI in Focus – Digital Kickoff”. Според него, използването на големи езикови модели е довело до „промяна на играта”, тъй като те учат машините да разбират естествения език, което всъщност им позволява да разбират човешките неща.

Технологията достигна ново ниво и вече работи на всички езици: можете да зададете въпрос на немски и да получите отговор на италиански. Чрез мултимодалността Microsoft, заедно с OpenAI, ще направи моделите изчерпателни, заяви Браун.

Главният изпълнителен директор на Microsoft Германия, Мариан Яник, обясни, че въвеждането на AI не означава съкращаване на работни места, не става въпрос за замяна на работници, а за извършване на повтарящи се задачи по различен начин. Ще са необходими много специалисти, за да се използва пълноценно AI, отбеляза Яник и предложи компаниите да създадат вътрешни центрове за компетентност, в които да обучават служители в използването на изкуствен интелект и да комбинират идеи за проекти.

Яник също така призова за „демократизиране” на AI, като се позовава на лекотата на използване на езикови модели в продуктовото семейство на Microsoft, по-специално тяхното широко разпространение чрез интегриране на изкуствения интелект в платформите Azure, Outlook и Teams.

Предимството на мултимодалния AI е, че може по подходящ начин да превежда текст не само в изображения, но и в музика и видео. Освен това самата невронна мрежа може да изпраща като заявки не само текст, но също аудио, снимки и видео. Докато GPT-3.5 позволява на потребителите да взаимодействат чрез въвеждане на текст, GPT-4, със своите мултимодални възможности, в идеалния случай може да осигури възможност за взаимодействие в множество режими, включително текст, изображения и аудио.

По време на събитието „AI ​​in Focus” специалистите на компанията дадоха примери за практическото използване на изкуствения интелект. Холгер Кен от Microsoft Германия подчерта, че „отговорният” AI вече е вграден в продуктите на Microsoft и съответните заявки могат да се обработват в облака чрез API.

Сега телефонните разговори с преобразуване на реч в текст могат да бъдат записвани и вече няма нужда от ръчно обобщаване и въвеждане на съдържание, поясняват от Microsoft. Това би спестило 500 работни часа на ден на голям клиент на Microsoft в Холандия, който получава до 30 000 обаждания на ден.

Що се отнася до оперативната надеждност и валидност на отговорите на изкуствения интелект, разработчиците уточниха, че те няма да са винаги правилни, така че е необходимо валидиране. В момента се работи върху изграждане на карта с показатели за надеждност за справяне с този проблем. Текстът, предложен от модела, е генеративен и следователно не е лесен за проверка, затова разработчиците изграждат обратна връзка с одобрение и неодобрение.

Коментар