Google ужал Gemma 4 до 1 ГБ — теперь модель умещается в кармане
Новые QAT-варианты Gemma 4 запускаются на телефоне и обычном ноутбуке без потери качества — Google открыл их 5 июня.
🔴 Google ужал Gemma 4 до 1 ГБ — теперь модель умещается в кармане
Ещё месяц назад мысль «запускаю мультимодальный LLM на телефоне» звучала как шутка. Google закрыл этот вопрос. 5 июня компания выпустила QAT-варианты всего семейства Gemma 4 — от текстовой E2B весом меньше гигабайта до огромной 26B MOE. Квантизация встроена прямо в обучение, поэтому качество почти не падает в отличие от обычной пост-тренировочной обрезки.
Что это значит на практике? E2B — это модель без эмбеддинг-слоёв, помещается в один гигабайт оперативной памяти и крутится на смартфоне. У старшей 12B мультимодальной версии — нативная обработка картинок и аудио прямо в LLM, без отдельных энкодеров. Запускается через llama.cpp, Ollama, LM Studio, MLX на обычных ноутбуках, потребительских видеокартах и мобильных. Под капотом — двухбитная квантизация генеративных слоёв, статические активации и канальная схема для эмбеддингов.
Для бизнеса это поворотный момент. Год назад приватный AI означал «арендуй GPU за тысячи долларов в месяц». Теперь умная ассистенция работает на устройстве клиента — без данных в облако, без счетов от OpenAI, без задержек на сеть. Если ваш продукт боялся приватности или цены AI-функций — пора пересобирать прототип. Окно для маленьких команд, делающих on-device AI, открылось именно сейчас.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
#нейросети #LLM #модели #Google #агентыИИ #мультимодальность #ИИ #технологии #AravanaAI
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.