TechNews.bg
Водещи новиниИзкуствен интелектНоваторскиНовиниТоп новини

Изкуственият интелект вече работи с браузъра като човек

Изпълнява действия като натискания на клавиши, писане, превъртане, навигация

Нов AI модел на Google може да се държи като човек в уеб браузъра (графика: CC0 Public Domain)

Напредъкът в AI разработките от водещите в сектора компании се ускорява. Изкуственият интелект вече може да взаимодейства с уебсайтове точно като хората. Подобни способности има новият AI модел Gemini 2.5 Computer Use на Google.

Изкуственият интелект на Google може да изпълнява човешки действия като натискания на клавиши, писане, превъртане, задържане на курсора, отваряне на падащи списъци и URL навигация.

На практика, Gemini 2.5 Computer Use позволява на агентите с изкуствен интелект да взаимодействат с уебсайтове и потребителски интерфейси точно като хората. AI моделът вече е достъпен за публичен преглед чрез Gemini API в Google AI Studio и Vertex AI.

Моделът се основава на възможностите за визуално възприятие и разсъждение на Gemini 2.5 Pro. Той може да изпълнява широк спектър от действия в браузъра, които обикновено изпълняват и хората.

Google твърди, че неговият AI модел превъзхожда конкурентните инструменти в няколко бенчмарка, включително Online-Mind2Web, WebVoyager и AndroidWorld, като същевременно поддържа по-ниска латентност.



За разлика от традиционните модели на изкуствен интелект, базирани на API, Gemini 2.5 Computer Use обработва екранни снимки на уеб интерфейси и генерира специфични действия в отговор.

Агентът получава заявка за задача, екранна снимка и история на последните действия. След това анализира интерфейса и генерира действие, като например щракване върху бутон или въвеждане на данни в поле. Действието се изпълнява от страна на клиента и нова екранна снимка се изпраща обратно към модела, за да продължи задачата в цикъл.

Google демонстрира ефективността на модела, използвайки примери, в които агентът сортира лепящи се бележки на дигитална бяла дъска и прехвърля информация за домашни любимци от уебсайт към CRM система.

В момента моделът поддържа 13 действия и се представя най-добре в уеб браузъри. Google уточнява, че моделът все още не е оптимизиран за задачи на ниво десктоп, въпреки че е демонстрирал потенциал в мобилни бенчмаркове.

още от категорията

Провал в тестове за сигурност – никой не може да контролира суперинтелект

TechNews.bg

AI агент Kiro разработва самостоятелно софтуер

TechNews.bg

Три принципа, без които изкуственият интелект ще полудее

TechNews.bg

AI анализира разговорите в затвора, предотвратява престъпления

TechNews.bg

AI за умно управление на градските паркове и зеленина: Мадрид се пробва

TechNews.bg

AI може да замени близо 12% от работната сила в САЩ

TechNews.bg

Коментари