
Gemma 3 предлага баланс между производителност, цена и сигурност
(снимка: Google)
Въпреки популярността на големите езикови модели, компаниите все повече се обръщат към компактни решения, за да намалят енергийните и компютърните разходи. В отговор на тази тенденция Google пусна третата версия на своя малък езиков модел Gemma 3.
Новият AI модел запазва производителността на „старшите” модели Gemini 2.0, но е оптимизиран за работа на устройства с ограничени ресурси – смартфони, лаптопи и сървъри с основни графични процесори.
Gemma 3 се предлага в четири варианта: с параметри 1B, 4B, 12B и 27B. Основното подобрение е увеличаването на контекстния прозорец до 128 хиляди токена срещу 80 хиляди в Gemma 2. Това позволява обработка на по-големи заявки и сложни сценарии.
Най-общо, Gemma 3 поддържа мултимодален анализ на текст, изображения и кратки видеоклипове, автоматизиране на задачи чрез извикване на функции и работи със 140 езика.
За допълнително намаляване на изчислителните разходи Google въвежда квантувани версии на модела. Квантуването или намаляването на прецизността на числовите стойности в теглата на невронната мрежа действа като „компресия” без загуба на точност. Това позволява на Gemma 3 да работи дори на един GPU или TPU, което е критично за локални приложения.
Според компанията, Gemma 3 осигурява „водеща в класа си производителност”, превъзхождайки LLM като Llama-405B, DeepSeek-V3 и o3-mini. В тестовете на Chatbot Arena Elo версията 27B заема второ място след DeepSeek-R1, побеждавайки Mistral Large и Claude 3.7 Sonnet.
Разработчиците могат да интегрират Gemma 3 чрез инструменти като Hugging Face Transformers, Ollama, PyTorch, JAX и Keras, както и чрез Google AI Studio, Hugging Face или Kaggle. За корпоративни клиенти е достъпна заявка към API на модела чрез AI Studio.
Сигурността е основен фокус на актуализацията. Gemma 3 има вграден ShieldGemma 2, филтър за изображения с 4B параметър, който блокира генерирането на съдържание, съдържащо насилие, сексуални сцени и други нарушения. Системата позволява персонализиране, за да отговори на нуждите на потребителите.
Както отбелязва Google, моделът е обучен с помощта на строги правила за обработка на данни, фина настройка в съответствие с политиките за сигурност и тестове за риск, включително оценка на потенциална злоупотреба при създаване на опасни вещества.
Интересът към малките модели нарасна рязко след дебюта на първия Gemma през февруари 2024 г. Решения като Microsoft Phi-4 и Mistral Small 3 демонстрират търсенето на AI, който може да решава специфични проблеми без излишния капацитет на LLM.
Gemma обаче не е дестилирана версия на Gemini – новият модел е обучен на същия набор от данни и архитектура, но без директно „наследяване” на знания от по-големия модел.
Компаниите все повече избират SLM (малки AI модели) или дестилирани версии на LLM за конкретни сценарии. Например, вместо да внедрите мощен модел като Claude 3.7 Sonnet за прост редактор на кодове, по-ефективно е да използвате компактен аналог, който не изисква значителни ресурси и намалява риска от претрениране.
С пускането на Gemma 3, Google укрепва позицията си в този сегмент, предлагайки баланс между производителност, цена и сигурност.