Gemma 4 12B

Google випускає Gemma 4 12B: модель штучного інтелекту (AI) без енкодерів для локального запуску.

Що відбувається, коли штучний інтелект відмовляється від стандартних «перекладачів» даних, щоб стати швидшим?

Google представив Gemma 4 12B — модель, яка ігнорує традиційні методи обробки, щоб працювати безпосередньо на залізі користувача. Цей крок переносить можливості великих серверних систем на звичайні ноутбуки.

Основні тези

Відмова від окремих енкодерів скорочує затримки при обробці аудіо та візуальних даних.
Модель працює локально на пристроях із 16 ГБ VRAM, зберігаючи продуктивність рівня версії 26B.
Підтримка контексту до 256K токенів та понад 140 мов розширює можливості для розробників.

Google DeepMind розробив Gemma 4 12B як міст між легкими моделями E4B та потужними системами Mixture of Experts (MoE) на 26 млрд параметрів. Головна зміна полягає в архітектурі. Замість використання окремих модулів-енкодерів для перетворення зображень та звуків у формат, зрозумілий для LLM, Gemma 4 12B приймає ці сигнали напряму.

Візуальні дані тепер обробляє легкий модуль вбудовування (embedding module). Аудіосигнали проектуються безпосередньо в той самий простір, що й текстові токени. Такий підхід мінімізує використання пам’яті та прискорює відповіді системи.

Компанія Nvidia випустила RTX Spark — першу лінійку Arm-процесорів, розроблених для ноутбуків та міні-ПК. Цікаво, як себе на них покаже локальне використання Gemma 4 12B?

Gemma 4 12B працює локально на ноутбуках із 16 ГБ пам’яті

Але як така зміна архітектури впливає на доступність технології?

Gemma 4 12B має 11,95 млрд параметрів і 48 шарів. Завдяки цьому модель поміщається в 16 ГБ відеопам’яті (VRAM) або уніфікованої пам’яті. Це робить систему доступною для власників сучасних ноутбуків. Використання Multi-Token Prediction (MTP) додатково знижує затримку при генерації тексту.

Окрім цього, Gemma 4 12B підтримує конфігуровані «режими мислення» для складних логічних завдань та нативний виклик функцій (function calling) для створення автономних агентів. Модель також обробляє відео та зображення із підтримкою змінної роздільної здатності.

Деякі розробники припускають, що відмова від енкодерів може погіршити точність розпізнавання дуже специфічних аудіосигналів. Проте Google стверджує, що уніфікація простору даних компенсує ці втрати за рахунок кращого розуміння контексту.

Модель доступна під ліцензією Apache 2.0. Це дозволяє розробникам вільно інтегрувати її у свої продукти. Користувачі вже можуть протестувати систему через інструменти локального запуску, такі як LM Studio та Ollama.

Ось список для Ollama:

  • gemma4:12b
  • gemma4:12b-it-q4_K_M
  • gemma4:12b-it-q8_0
  • gemma4:12b-it-bf16
  • gemma4:12b-mlxMLX
  • gemma4:12b-mlx-bf16MLX
  • gemma4:12b-mxfp8MLX
  • gemma4:12b-nvfp4MLX

“Gemma 4 12B розроблена, щоб принести високопродуктивний багатомодальний інтелект безпосередньо на ваш ноутбук, поєднуючи ефективність мобільних рішень із розширеним міркуванням”, — зазначають Олів’є Лакомб та Гас Мартінс у офіційному блозі Google.

Чому це важливо

Застосування архітектури без енкодерів усуває системні затримки, які виникали при передачі даних між різними модулями нейронної мережі. Це створює умови для появи швидких локальних інтерфейсів, що можуть одночасно бачити та чути користувача без хмарних обчислень. Короткостроково це призведе до виходу нових застосунків для локальної транскрибації та аналізу відео. У довгостроковій перспективі це може спричинити відмову від складних гібридних архітектур на користь повністю уніфікованих моделей.

Локальний запуск моделі на 16 ГБ пам’яті означає, що приватність даних більше не є компромісом між безпекою та якістю AI. Користувачі можуть обробляти конфіденційну інформацію, не відправляючи її на сервери Google.

Це також змінює економіку розробки AI-агентів. Замість оплати за кожен токен у хмарі, компанії можуть розгортати Gemma 4 12B на власних робочих станціях. Такий підхід радикально знижує вартість експлуатації багатомодальних систем.

Результати тестування Gemma 4 12B

На момент публікації цієї новини я розробляю програму для створення контенту.

До впровадження Gemma 4 12B програма в середньому забезпечувала результат за 4 хвилини 30 секунд. Після впровадження – 3 хвилини 12 секунд.

Скорочення часу обробки майже на третину (різніиця 1 хвилина 18 секунд).

Я використовував модель gemma4:12b-it-q4_K_M.