NVIDIA выкатила Nemotron TwoTower: LLM работает в 2,42 раза быстрее без переобучения
NVIDIA выпустила Nemotron-Labs-TwoTower-30B: скорость генерации в 2,42 раза выше при 98,7% качества оригинала. Ускорение достигается без переобучения — через клонирование весов.
🔴 NVIDIA выкатила Nemotron TwoTower: LLM работает в 2,42 раза быстрее без переобучения
NVIDIA нашла способ ускорить AI-модель в 2,42 раза, не тренируя её заново, а перестраивая уже существующую. Секрет в архитектуре из двух «башен».
Nemotron-Labs-TwoTower-30B берёт готовые веса модели Nemotron и клонирует их дважды. Первая башня замораживается: она хранит все знания. Вторая обучается новой технике: генерирует не по одному слову, а сразу блоками. Результат: скорость генерации в 2,42 раза выше при 98,7% качества оригинала на бенчмарках. Цена такого ускорения: задачи по коду и математике проседают примерно на 3,7–3,8 пункта. Для работы модели нужны две видеокарты по 80 гигабайт.
Для тех, кто строит AI-продукты, это готовый рецепт ускорения без миллионов долларов на переобучение с нуля. Особенно выигрывают агентные системы, где на каждый ответ пользователя модель делает 10–20 внутренних вызовов и каждая секунда ожидания складывается в минуты. Меняется сама бизнес-логика: становится выгодно строить продукт из десятков вызовов модели, а не втискивать всё в один запрос.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
#нейросети #LLM #модели #NVIDIA #GPU #агентыИИ #ИИ #технологии #AravanaAI
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.