Google DeepMind показал, как уйти от пословной генерации текста — в 4 раза быстрее

DiffusionGemma рисует сразу блоки текста, как картинки, и выдаёт 1000+ токенов в секунду на одной H100.

Aravana··1 мин

🔴 Google DeepMind показал, как уйти от пословной генерации текста — в 4 раза быстрее

Обычные языковые модели печатают слово за словом, как ребёнок учится читать. Google DeepMind показал другой путь: модель стартует с холста из случайных токенов и за несколько проходов «проявляет» осмысленный текст — так же, как из шума рождаются картинки в Midjourney.

DiffusionGemma — это 26 миллиардов параметров в архитектуре «смесь экспертов» (Mixture of Experts), из которых на запуске работают только 3,8 миллиарда. За один проход модель параллельно генерирует 256 токенов и выдаёт более 1000 токенов в секунду на одной NVIDIA H100 и 700+ на бытовой видеокарте RTX 5090 — в 4 раза быстрее обычной авторегрессивной генерации. Модель открытая, лицензия Apache 2.0, уже встроена в vLLM и Hugging Face. Сама команда честно предупреждает: для максимального качества всё ещё нужна стандартная Gemma 4.

Для бизнеса это сигнал: скорость отклика AI-агентов перестаёт быть проблемой инфраструктуры. То, что вчера требовало стойки дорогих ускорителей, завтра уместится на одной карте. Если у вас есть продукт, где задержка убивает опыт — голосовые ассистенты, поиск, кодогенерация — пора пересматривать юнит-экономику.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

#нейросети #LLM #модели #Google #Gemini #NVIDIA #GPU #чипы #BigTech #ИИ #технологии #AravanaAI

Тип материала: Пост из Telegram

Поделиться:TelegramXLinkedIn
Как вам материал?

Читайте также

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

«Чат мёртв»: OpenAI хоронит интерфейс, который сделал её знаменитой

OpenAI готовит крупнейший редизайн ChatGPT со дня запуска: вместо чата — агенты, Codex и инструменты, выбираемые моделью. Цель — успеть к IPO.

·1 мин

SoftBank не смог занять $6 млрд под акции OpenAI — банки засомневались в залоге

Bloomberg сообщает: переговоры SoftBank о маржинальном кредите на $6 млрд под залог доли в OpenAI забуксовали. Изначально хотели $10 млрд. Акции SoftBank упали почти на 10%. На фоне конфиденциальной заявки OpenAI на IPO это первый серьёзный звонок: даже банки не уверены, как оценивать актив.

·1 мин

AWS выпустил агента, который сам разбирается, почему счёт за облако вырос

FinOps Agent от Amazon отвечает на вопрос «почему стало дороже» и сразу пишет тикет в Jira с планом экономии.

·1 мин