Google ужал Gemma 4 до 1 ГБ — теперь модель умещается в кармане

Новые QAT-варианты Gemma 4 запускаются на телефоне и обычном ноутбуке без потери качества — Google открыл их 5 июня.

Aravana··1 мин

🔴 Google ужал Gemma 4 до 1 ГБ — теперь модель умещается в кармане

Ещё месяц назад мысль «запускаю мультимодальный LLM на телефоне» звучала как шутка. Google закрыл этот вопрос. 5 июня компания выпустила QAT-варианты всего семейства Gemma 4 — от текстовой E2B весом меньше гигабайта до огромной 26B MOE. Квантизация встроена прямо в обучение, поэтому качество почти не падает в отличие от обычной пост-тренировочной обрезки.

Что это значит на практике? E2B — это модель без эмбеддинг-слоёв, помещается в один гигабайт оперативной памяти и крутится на смартфоне. У старшей 12B мультимодальной версии — нативная обработка картинок и аудио прямо в LLM, без отдельных энкодеров. Запускается через llama.cpp, Ollama, LM Studio, MLX на обычных ноутбуках, потребительских видеокартах и мобильных. Под капотом — двухбитная квантизация генеративных слоёв, статические активации и канальная схема для эмбеддингов.

Для бизнеса это поворотный момент. Год назад приватный AI означал «арендуй GPU за тысячи долларов в месяц». Теперь умная ассистенция работает на устройстве клиента — без данных в облако, без счетов от OpenAI, без задержек на сеть. Если ваш продукт боялся приватности или цены AI-функций — пора пересобирать прототип. Окно для маленьких команд, делающих on-device AI, открылось именно сейчас.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

#нейросети #LLM #модели #Google #агентыИИ #мультимодальность #ИИ #технологии #AravanaAI

Тип материала: Пост из Telegram

Поделиться:TelegramXLinkedIn
Как вам материал?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

NVIDIA выложила Nemotron 3.5 ASR — 40 языков в реальном времени за 80 миллисекунд

Новая опенсорс-модель распознавания речи от NVIDIA работает быстрее и охватывает русский, английский и ещё 38 языков одной нейросетью.

·1 мин

Google научил Gemini делать ваших цифровых двойников — для всех платных подписчиков

Функция аватара, построенная на модели Gemini Omni, открыта всем платным подписчикам Gemini — лицо и голос воссоздаются по короткой записи, в чатах клон вызывается командой @me.

·1 мин

OpenAI открыл всем пользователям ChatGPT защиту от скрытых атак — даже бесплатным

Lockdown Mode начал раскатываться в июне всем пользователям ChatGPT, включая бесплатных — блокирует автоматические загрузки, Deep Research и Agent Mode для защиты от скрытых атак.

·1 мин