Команда Google DeepMind представила Gemma 4 12B — нову відкриту LLM-модель з 11,95 мільярдами параметрів, яка розповсюджується за ліцензією Apache 2.0. Модель здатна повноцінно працювати на ноутбуці зі стандартними 16 ГБ відеопам’яті або уніфікованої оперативної пам’яті.
Читайте также: Заборонена біологія. Вчені довели, що мастурбація у птахів — це не психічна травма, а норма
На практиці це означає, що з Gemma 4 12B ви можете працювати зі штучним інтелектом навіть у літаку без Wi-Fi або в умовах, коли зовнішня передача даних неприпустима з міркувань безпеки — і при цьому безкоштовно.

Gemma 4 12B стала першою моделлю середнього розміру з відкритими вагами, яка обробляє текст, зображення, аудіо та відео в єдиному трансформері типу decoder-only — без окремих енкодерів для зору чи звуку.
Продуктивність, яка наближається до моделей вдвічі більшого розміру
За бенчмарками Gemma 4 12B наближається до більшої моделі Gemma 4 26B MoE, займаючи менше половини її пам’яті. Для прискорення локального інференсу додатково випущено окрему модель Multi-Token Prediction (MTP), яка зменшує затримку під час генерації.
Революційна архітектура без енкодерів
Ключова відмінність Gemma 4 12B — нова уніфікована архітектура, в якій візуальні та аудіодані надходять безпосередньо до основи LLM, минаючи окремі модулі обробки. Зображення проходять через легковагий візуальний ембедер на 35 млн параметрів: необроблені патчі розміром 48×48 пікселів проєктуються у прихований простір моделі за допомогою одного матричного множення без жодного шару уваги. Аудіосигнал у 16 кГц нарізається на фрейми по 40 мс і так само лінійно проєктується у вхідний простір LLM.
Це дозволило суттєво знизити латентність і зменшити навантаження на пам’ять порівняно з попередніми моделями сімейства Gemma, які використовували окремі енкодери для зору та звуку.
Читайте также: Без сонця і вітру. У Бразилії вперше у світі запустили промислову ТЕС на етанолі
Перша середня модель Gemma з нативним аудіо
Раніше підтримка аудіо в сімействі Gemma була доступна лише в легких архітектурах — зокрема в E4B. Gemma 4 12B стала першою моделлю середнього розміру з вбудованою обробкою звуку. Модель підтримує розпізнавання мовлення, генерацію коду та аналіз відео — зокрема може опрацьовувати багатохвилинні відеокліпи, аналізуючи кадри й аудіодоріжку одночасно.
Готова до виробничого використання
Ваги моделі доступні на Hugging Face і Kaggle. Gemma 4 12B сумісна з популярними фреймворками розгортання: vLLM, SGLang, MLX і llama.cpp. Для організацій у Google Cloud модель можна запустити через Gemini Enterprise Agent Platform Model Garden, Cloud Run або Google Kubernetes Engine.
Крім того, Google випустила безкоштовний macOS-застосунок Google AI Edge Eloquent, який дозволяє запустити демо голосового редагування тексту локально на ноутбуці з 16 ГБ RAM. Також модель доступна через Ollama командою ollama pull gemma4:12b.
Для кого це актуально
Для організацій, яким потрібна конфіденційна мультимодальна обробка даних без залежності від хмари — з мінімальними затримками та без хмарних витрат — Gemma 4 12B заслуговує на серйозну увагу при плануванні наступного виробничого пайплайну. Компанії, що будують агентні пайплайни з комбінованими вимогами до зору й аудіо, тепер можуть замінити складні мультимодельні стеки одним розгортанням на 12B параметрів — скоротивши інфраструктурну складність і вартість на токен.
Нагадаємо, нещодавно фахівці Google DeepMind розкрили шість способів, як зламати ШІ-агента.
Читайте также: Розтягується на 900%. У Південній Кореї винайшли наделастичний гідрогель із рідкого металу
Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn
