Как начать работать с NVIDIA Cosmos 3: открытая модель для физического AI и роботики
NVIDIA Cosmos 3 -- первая в мире полностью открытая омни-модель для физического AI. Она умеет понимать физику реального мира, генерировать видео и управляющие команды для роботов. Рассказываем, как попробовать.
Что это и для кого
NVIDIA Cosmos 3 -- это открытая AI-модель нового типа, представленная компанией NVIDIA 1 июня 2026 года на выставке Computex в Тайпее. Её создатель, Дженсен Хуанг, назвал Cosmos 3 «самой продвинутой базовой моделью для создания автономных систем». Но что это означает на практике?
В отличие от языковых моделей вроде ChatGPT или Claude, которые работают с текстом, Cosmos 3 обучена понимать физический мир: законы механики, взаимодействие объектов, траектории движения, пространственно-временные отношения. Это фундаментально другая задача -- и именно поэтому модель называют «физическим AI».
Cosmos 3 -- первая в мире полностью открытая омни-модель: она принимает на вход текст, изображения, видео и аудио, а на выходе генерирует не только текст или видео, но и управляющие команды для физических устройств -- такие как углы поворота суставов робота или траектории движения автономного автомобиля. Именно это делает её уникальной: предыдущие модели умели либо генерировать контент, либо управлять устройствами, но не оба действия в рамках единой архитектуры.
Для кого создана Cosmos 3? Прежде всего -- для разработчиков, исследователей и инженеров, которые строят системы физического AI: роботов, автономные транспортные средства, умные камеры и промышленные системы технического зрения. Однако модель будет интересна и более широкой аудитории -- тем, кто хочет поэкспериментировать с передовыми открытыми моделями, сгенерировать физически-достоверное видео или изучить возможности нового поколения AI-систем.
Важный контекст: NVIDIA открыла Cosmos 3 под открытой лицензией и разместила веса модели на Hugging Face и GitHub. Это означает, что модель можно скачать, запустить локально или через облачный API -- без необходимости платить NVIDIA напрямую за использование. Открытость модели -- принципиальное решение компании: NVIDIA делает ставку на то, что широкое сообщество разработчиков ускорит прогресс в физическом AI быстрее, чем закрытые лаборатории.
Как зарегистрироваться / установить
Существует три способа начать работу с NVIDIA Cosmos 3, и они различаются по требованиям к оборудованию и техническим навыкам.
Способ 1: Попробовать через NVIDIA API (самый простой). Перейдите на build.nvidia.com. Это облачная платформа NVIDIA для разработчиков, где Cosmos 3 доступна через API без необходимости скачивать модель. Зарегистрируйтесь через аккаунт NVIDIA (бесплатно). После регистрации вы получите API-ключ и набор кредитов для тестирования. В документации на build.nvidia.com найдите Cosmos 3 в каталоге моделей -- там доступны Cosmos 3 Nano (8B параметров) и Cosmos 3 Super (32B параметров). Это оптимальный вариант для первого знакомства.
Способ 2: Скачать через Hugging Face. Если вы хотите запустить модель локально, перейдите на huggingface.co и найдите репозиторий nvidia/Cosmos-3. Для скачивания потребуется аккаунт Hugging Face и согласие с лицензией модели. Cosmos 3 Nano (8B) требует видеокарту с минимум 24 ГБ видеопамяти (например, NVIDIA RTX 4090 или A100). Cosmos 3 Super (32B) требует несколько GPU или профессиональные ускорители. После скачивания следуйте инструкциям в README для установки зависимостей и запуска inference.
Способ 3: Через GitHub и Cosmos Framework. NVIDIA опубликовала полный код на github.com/nvidia/cosmos. Репозиторий содержит скрипты для настройки, запуска inference, обучения и оценки моделей. Клонируйте репозиторий командой git clone https://github.com/nvidia/cosmos и следуйте инструкции в INSTALL.md. Этот вариант подходит для разработчиков, которые хотят не просто использовать модель, но и дообучать её на своих данных.
Системные требования для локального запуска: операционная система Linux (рекомендуется Ubuntu 22.04), Python 3.10 или выше, CUDA 12.x, видеокарта NVIDIA с поддержкой CUDA и достаточным объёмом видеопамяти. Для Cosmos 3 Nano: от 24 ГБ VRAM. Для Cosmos 3 Super: от 80 ГБ VRAM (несколько GPU в конфигурации multi-GPU). Если у вас нет подходящей видеокарты -- используйте способ 1 (API) или облачные GPU-инстансы (Lambda, RunPod, Vast.ai).
Первый запуск -- что попробовать
Если вы используете NVIDIA API на build.nvidia.com, начните с самого простого сценария -- генерации видео по текстовому описанию.
Генерация физически-достоверного видео. Отправьте запрос к Cosmos 3 Nano с описанием физической сцены на английском языке, например: «A robotic arm picks up a red ball and places it in a box on a table». Cosmos 3 сгенерирует видеоклип, в котором движения будут соответствовать реальной физике -- роботическая рука не будет проходить сквозь предметы, шар не будет зависать в воздухе. Это то, с чем обычные видеогенераторы (Sora, Kling, Veo) справляются хуже, потому что они не оптимизированы под физическую точность.
Попробуйте reasoning над физическими сценами. Отправьте изображение или видео физической сцены и задайте вопрос: «What will happen if the object on the left falls?» или «What is the trajectory of the ball?». Cosmos 3 отвечает с учётом понимания физических законов -- это её ключевое преимущество перед мультимодальными LLM общего назначения.
Изучите примеры из технического отчёта. На сайте research.nvidia.com/labs/cosmos-lab/cosmos3 опубликован технический отчёт с множеством примеров использования модели. Там же -- видеодемонстрации того, как Cosmos 3 генерирует синтетические данные для обучения роботов. Эти примеры дадут понимание возможностей модели без необходимости сразу писать код.
Запустите пример из репозитория GitHub. Если вы установили Cosmos Framework локально, в папке examples/ есть готовые скрипты для базовых сценариев: генерация видео, физический reasoning, генерация action-данных. Запустите python examples/text_to_world.py --prompt "A robot walks through a warehouse" -- это хорошая отправная точка для понимания API модели.
Ключевые фишки
Архитектура Mixture-of-Transformers (MoT). Cosmos 3 использует двухбашенную архитектуру: один трансформер отвечает за reasoning (понимание физики и планирование), второй -- за генерацию (создание видео, действий). Они работают совместно: сначала модель анализирует и планирует, затем генерирует. Это принципиально отличается от стандартных диффузионных моделей, которые генерируют напрямую без промежуточного планирования.
Нативная генерация action-данных. Это уникальная особенность Cosmos 3: модель может генерировать не только видео, но и управляющие команды для физических устройств -- углы суставов роботической руки, траектории движения, позиции захвата. Это критично для создания синтетических тренировочных данных для роботов: вместо того чтобы тысячи раз проводить физические эксперименты, можно генерировать реалистичные данные виртуально.
Три варианта модели. Cosmos 3 Nano (8B параметров) -- компактная версия для быстрого inference и экспериментов на потребительском оборудовании. Cosmos 3 Super (32B параметров) -- полная версия для максимального качества физического reasoning и генерации. Cosmos 3 Edge (в разработке) -- версия для запуска в реальном времени на встраиваемых устройствах, например непосредственно на роботах или в системах технического зрения.
Открытый постобучение и дообучение. NVIDIA открыла не только веса модели, но и скрипты для fine-tuning. Это означает, что разработчики могут адаптировать Cosmos 3 для своей конкретной задачи: обучить на данных конкретного типа роботов, конкретного производственного окружения или специализированной предметной области. Это важная особенность для промышленного применения.
NVIDIA Cosmos Coalition. NVIDIA создала коалицию партнёров для развития экосистемы Cosmos 3. Участники -- Black Forest Labs (генерация изображений), Runway (генерация видео), Skild AI (роботика) и другие. Партнёры интегрируют Cosmos 3 в свои продукты и инструменты, что означает постепенное появление пользовательских интерфейсов для работы с возможностями модели без необходимости писать код.
OpenMDW -- открытый набор данных. Вместе с Cosmos 3 NVIDIA открыла OpenMDW (Open Motion and Dynamics World), масштабный датасет физически-достоверных сцен для обучения моделей. Это помогает исследователям воспроизводить результаты NVIDIA и создавать собственные специализированные модели на основе открытых данных.
Цены и ограничения
Cosmos 3 распространяется по открытой лицензии, однако с рядом условий. Веса модели Cosmos 3 Nano и Cosmos 3 Super доступны бесплатно на Hugging Face и GitHub. Использование для некоммерческих и исследовательских целей -- без ограничений. Для коммерческого использования необходимо ознакомиться с лицензионным соглашением NVIDIA Cosmos License Agreement, опубликованным на GitHub.
Через API на build.nvidia.com: доступны бесплатные кредиты для тестирования (точный объём указан в документации платформы на момент использования). После их исчерпания используется платная модель с ценообразованием на основе объёма использованных вычислительных ресурсов (GPU-часов).
Аппаратные требования -- главное ограничение для локального запуска. Cosmos 3 Nano (8B) требует GPU с 24+ ГБ видеопамяти. Подходящие потребительские варианты: NVIDIA RTX 4090 (24 ГБ) -- самый доступный вариант, стоимость от $1599. Cosmos 3 Super (32B) недоступен для запуска на потребительском оборудовании без конфигурации multi-GPU.
Альтернативное решение: облачные GPU-сервисы. Lambda Labs, RunPod и Vast.ai предлагают аренду GPU по часам. Запуск Cosmos 3 Nano на A100 (80 ГБ) обходится от $1-2 в час -- разумная цена для экспериментов, не требующая покупки дорогостоящего оборудования.
Языковая поддержка: Cosmos 3 оптимизирована для работы с английскими запросами. Техническая документация, примеры кода и все официальные руководства также на английском языке. Для русскоязычных разработчиков это означает необходимость формулировать промпты и описания физических сцен по-английски для получения наилучших результатов. Сообщество NVIDIA Developer Forums активно и обычно отвечает на технические вопросы в течение нескольких дней.
Нужен ли VPN из России
NVIDIA как компания работает в России с ограничениями, связанными с международными санкциями в части экспорта передовых GPU. Однако программные продукты и модели NVIDIA -- в том числе Cosmos 3 -- доступны для скачивания без региональных ограничений. Hugging Face работает в России без VPN, и скачивание весов Cosmos 3 оттуда возможно напрямую.
Платформа build.nvidia.com может потребовать регистрацию через аккаунт NVIDIA, который в ряде случаев недоступен из России -- попробуйте через VPN с европейским или американским IP-адресом для первоначальной регистрации. После создания аккаунта API-запросы должны работать без VPN.
Репозиторий на GitHub (github.com/nvidia/cosmos) доступен без ограничений. Клонирование репозитория и установка зависимостей через pip работают из России напрямую. Единственное исключение -- если в вашей корпоративной сети заблокированы внешние GitHub-репозитории: в этом случае используйте личный интернет или VPN.
Для использования облачных GPU-сервисов (Lambda, RunPod, Vast.ai) для запуска Cosmos 3: эти сервисы принимают платёжные инструменты из России с ограничениями. Рекомендуется уточнить актуальные условия оплаты непосредственно на сайтах сервисов -- ситуация меняется достаточно часто. Некоторые из них принимают криптовалюту (USDT, ETH). Vast.ai известен наиболее гибкими условиями для пользователей из стран с ограниченным доступом к международным платёжным системам.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.
Хотите получать подобные материалы раньше?
Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.
Узнать про IntelligenceНе пропускайте важное
Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.
Как начать пользоваться ZoomMate: AI-ассистент, который превращает совещания в реальные задачи
ZoomMate от Zoom -- AI-агент нового поколения, который слушает ваши встречи и сам обновляет задачи в Jira, записи в Salesforce и события в календаре. Рассказываем, как подключить и настроить.
Sonauto: как создавать музыку с AI бесплатно и без ограничений
Полный гайд по Sonauto -- бесплатному AI-генератору музыки без лимитов. Создавайте полноценные треки до 4.5 минут, разделяйте стемы, редактируйте секции без подписки.
Zed: самый быстрый AI-редактор кода с параллельными агентами
Полный гайд по Zed -- AI-редактору кода на Rust с параллельными агентами, поддержкой Claude Code, Gemini CLI и OpenAI Codex. Бесплатный тариф, встроенная совместная работа в реальном времени.