4 Червня, 2026

Прорив від Google: нова модель Gemma 4 12B запуститься навіть на ноутбуці з 16 ГБ пам’яті

Команда Google DeepMind представила Gemma 4 12B — нову відкриту LLM-модель з 11,95 мільярдами параметрів, яка розповсюджується за ліцензією Apache 2.0. Модель здатна повноцінно працювати на ноутбуці зі стандартними 16 ГБ відеопам’яті або уніфікованої оперативної пам’яті.

Читайте также: Заборонена біологія. Вчені довели, що мастурбація у птахів — це не психічна травма, а норма

На практиці це означає, що з Gemma 4 12B ви можете працювати зі штучним інтелектом навіть у літаку без Wi-Fi або в умовах, коли зовнішня передача даних неприпустима з міркувань безпеки — і при цьому безкоштовно.

Прорив від Google: нова модель Gemma 4 12B запуститься навіть на ноутбуці з 16 ГБ пам'яті

Gemma 4 12B стала першою моделлю середнього розміру з відкритими вагами, яка обробляє текст, зображення, аудіо та відео в єдиному трансформері типу decoder-only — без окремих енкодерів для зору чи звуку.

Продуктивність, яка наближається до моделей вдвічі більшого розміру

За бенчмарками Gemma 4 12B наближається до більшої моделі Gemma 4 26B MoE, займаючи менше половини її пам’яті. Для прискорення локального інференсу додатково випущено окрему модель Multi-Token Prediction (MTP), яка зменшує затримку під час генерації.

Революційна архітектура без енкодерів

Ключова відмінність Gemma 4 12B — нова уніфікована архітектура, в якій візуальні та аудіодані надходять безпосередньо до основи LLM, минаючи окремі модулі обробки. Зображення проходять через легковагий візуальний ембедер на 35 млн параметрів: необроблені патчі розміром 48×48 пікселів проєктуються у прихований простір моделі за допомогою одного матричного множення без жодного шару уваги. Аудіосигнал у 16 кГц нарізається на фрейми по 40 мс і так само лінійно проєктується у вхідний простір LLM.

Це дозволило суттєво знизити латентність і зменшити навантаження на пам’ять порівняно з попередніми моделями сімейства Gemma, які використовували окремі енкодери для зору та звуку.

Читайте также: Без сонця і вітру. У Бразилії вперше у світі запустили промислову ТЕС на етанолі

Перша середня модель Gemma з нативним аудіо

Раніше підтримка аудіо в сімействі Gemma була доступна лише в легких архітектурах — зокрема в E4B. Gemma 4 12B стала першою моделлю середнього розміру з вбудованою обробкою звуку. Модель підтримує розпізнавання мовлення, генерацію коду та аналіз відео — зокрема може опрацьовувати багатохвилинні відеокліпи, аналізуючи кадри й аудіодоріжку одночасно.

Готова до виробничого використання

Ваги моделі доступні на Hugging Face і Kaggle. Gemma 4 12B сумісна з популярними фреймворками розгортання: vLLM, SGLang, MLX і llama.cpp. Для організацій у Google Cloud модель можна запустити через Gemini Enterprise Agent Platform Model Garden, Cloud Run або Google Kubernetes Engine.

Крім того, Google випустила безкоштовний macOS-застосунок Google AI Edge Eloquent, який дозволяє запустити демо голосового редагування тексту локально на ноутбуці з 16 ГБ RAM. Також модель доступна через Ollama командою ollama pull gemma4:12b.

Для кого це актуально

Для організацій, яким потрібна конфіденційна мультимодальна обробка даних без залежності від хмари — з мінімальними затримками та без хмарних витрат — Gemma 4 12B заслуговує на серйозну увагу при плануванні наступного виробничого пайплайну. Компанії, що будують агентні пайплайни з комбінованими вимогами до зору й аудіо, тепер можуть замінити складні мультимодельні стеки одним розгортанням на 12B параметрів — скоротивши інфраструктурну складність і вартість на токен.

Нагадаємо, нещодавно фахівці Google DeepMind розкрили шість способів, як зламати ШІ-агента.

Читайте также: Розтягується на 900%. У Південній Кореї винайшли наделастичний гідрогель із рідкого металу

Підписуйтесь на нас у соцмережах: Telegram | Facebook | LinkedIn

Автор admin

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *