
Напредъкът в AI разработките от водещите в сектора компании се ускорява. Изкуственият интелект вече може да взаимодейства с уебсайтове точно като хората. Подобни способности има новият AI модел Gemini 2.5 Computer Use на Google.
Изкуственият интелект на Google може да изпълнява човешки действия като натискания на клавиши, писане, превъртане, задържане на курсора, отваряне на падащи списъци и URL навигация.
На практика, Gemini 2.5 Computer Use позволява на агентите с изкуствен интелект да взаимодействат с уебсайтове и потребителски интерфейси точно като хората. AI моделът вече е достъпен за публичен преглед чрез Gemini API в Google AI Studio и Vertex AI.
Моделът се основава на възможностите за визуално възприятие и разсъждение на Gemini 2.5 Pro. Той може да изпълнява широк спектър от действия в браузъра, които обикновено изпълняват и хората.
Google твърди, че неговият AI модел превъзхожда конкурентните инструменти в няколко бенчмарка, включително Online-Mind2Web, WebVoyager и AndroidWorld, като същевременно поддържа по-ниска латентност.
За разлика от традиционните модели на изкуствен интелект, базирани на API, Gemini 2.5 Computer Use обработва екранни снимки на уеб интерфейси и генерира специфични действия в отговор.
Агентът получава заявка за задача, екранна снимка и история на последните действия. След това анализира интерфейса и генерира действие, като например щракване върху бутон или въвеждане на данни в поле. Действието се изпълнява от страна на клиента и нова екранна снимка се изпраща обратно към модела, за да продължи задачата в цикъл.
Google демонстрира ефективността на модела, използвайки примери, в които агентът сортира лепящи се бележки на дигитална бяла дъска и прехвърля информация за домашни любимци от уебсайт към CRM система.
В момента моделът поддържа 13 действия и се представя най-добре в уеб браузъри. Google уточнява, че моделът все още не е оптимизиран за задачи на ниво десктоп, въпреки че е демонстрирал потенциал в мобилни бенчмаркове.
