Google обяви нови допълнения към серията модели с изкуствен интелект Gemini на своята годишна конференция за разработчици, която започна вчера. Ден по-рано конкурентът OpenAI обяви новия си AI модел GPT-4o.
Компанията използва конференцията Google I/O, за да покаже това, което нарича „най-леки и най-ефективни модели с изкуствен интелект”. „Чухме от разработчиците, че искат нещо по-бързо и дори по-рентабилно”, каза Демис Хасабис, главен изпълнителен директор на Google DeepMind, на брифинг за пресата, цитиран от CNBC.
Gemini 1.5 Flash е ново допълнение към серията Gemini. В блог публикация компанията казва, че новият модел може бързо да обобщава разговори, да надписва изображения и видеоклипове и да извлича данни от големи документи и таблици.
Анонсът идва в момент, когато технологичните компании все повече пренасочват разработването и внедряването на своите продукти около генеративния AI, което е от особено значение за Google. Новите инструменти дават на потребителите по-усъвършенствани и креативни начини за достъп до онлайн информация, в сравнение с традиционното уеб търсене.
В понеделник конкурентът OpenAI обяви нов AI модел и настолна версия на ChatGPT, заедно с нов потребителски интерфейс. Моделът, наречен GPT-4o, е два пъти по-бърз от GPT-4 Turbo и наполовина по-евтин, заявиха от компанията на Сам Алтман.
Надграждането носи подобрено качество и скорост и позволява на ChatGPT да работи с 50 различни езика. Новият модел ще бъде достъпен и чрез интерфейса за програмиране на приложения (API) на OpenAI, позволявайки на разработчиците да започнат да създават приложения с новия модел незабавно.
Google, от своя страна, обяви подобрен модел Gemini 1.5 Pro, който може да осмисли множество големи документи – общо 1500 страници – или да обобщи 100 имейла, според източници от компанията.
Gemini 1.5 Pro скоро ще може да обработва един час видео съдържание или кодови бази с повече от 30 000 реда, каза Сиси Хсиао, вицепрезидент на Google и генерален мениджър за Gemini преживявания.
„Можете бързо да получите отговори и прозрения за пълни документи, като например да разберете подробностите относно политиката за домашни любимци във вашия договор за наем или да сравните ключови аргументи от множество дълги научни статии”, каза Хсиао.
С поддръжка на 35 езика, Gemini 1.5 Pro на Google има прозорец от 2 милиона токена, който измерва контекста и показва колко информация моделът може да обработи наведнъж. Новият AI подобрява локалното мислене, планиране и разбиране на образа, казват от разработчика.
„Той предлага най-дългия контекстен прозорец от всеки основен модел досега”, заяви главният изпълнителен директор на Alphabet Сундар Пичай на брифинг за пресата. Той даде пример с родител, който моли Gemini да обобщи всички скорошни имейли от училището на детето си.
Gemini 1.5 Pro първоначално ще бъде достъпен за тестване в Workspace Labs. Моделът Gemini 1.5 Flash ще е наличен за тестване и във Vertex AI, платформата за машинно обучение на Google, която позволява на разработчиците да обучават и внедряват AI приложения.