Stable Audio 3.0: как создавать музыку длиной до 6 минут с помощью ИИ

Stable Audio 3.0 от Stability AI - первый генератор музыки с открытыми весами, создающий треки до 6 минут. Запущен 20 мая 2026 года. Подробный гайд для начинающих.

·7 мин

Что это и для кого

Stable Audio 3.0 - это новый генератор музыки и звука от компании Stability AI, официально запущенный 20 мая 2026 года. Это первый в своем роде инструмент с открытыми весами (open weights), способный создавать полноценные музыкальные треки длиной до 6 минут и 20 секунд. Ни один предыдущий open-source генератор музыки не достигал такой продолжительности выходного аудио.

Stable Audio 3.0 - это не один инструмент, а целое семейство моделей с разными характеристиками. Компания выпустила четыре версии:

  • Stable Audio 3.0 Small SFX - компактная модель на 459 миллионов параметров, специализированная на создании звуковых эффектов (SFX). Открытые веса, доступна на HuggingFace.
  • Stable Audio 3.0 Small - компактная модель на 459 миллионов параметров для создания музыки. Открытые веса, доступна на HuggingFace.
  • Stable Audio 3.0 Medium - модель на 1.4 миллиарда параметров, баланс между качеством и требованиями к ресурсам. Открытые веса, доступна на HuggingFace.
  • Stable Audio 3.0 Large - флагманская модель на 2.7 миллиарда параметров, максимальное качество. Доступна только через API, без открытых весов.

Кому подойдет Stable Audio 3.0:

  • Инди-музыкантам, которые хотят быстро создавать демо-версии треков или экспериментировать с жанрами
  • Подкастерам и ютуберам, которым нужна оригинальная фоновая музыка без лицензионных ограничений
  • Разработчикам игр, ищущим инструмент для генерации атмосферных саундтреков и звуковых эффектов
  • Режиссерам и видеографам, которые хотят создавать музыку точно под конкретную сцену
  • Техническим специалистам и исследователям, которые хотят запускать модель локально и изучать её архитектуру
  • Всем, кто ищет инструмент для генерации музыки без ежемесячной подписки - с открытыми весами можно работать бесплатно локально

Ключевое преимущество перед конкурентами - открытые веса для трех из четырех моделей. Это означает, что вы можете скачать модель и запускать её локально без интернета, без лицензионных ограничений на коммерческое использование выходов и без платы за каждую генерацию. Для сравнения: Suno, Udio и другие популярные генераторы музыки работают только в облаке и требуют подписки.

Как зарегистрироваться / установить

В зависимости от ваших потребностей есть несколько способов начать работу со Stable Audio 3.0.

Вариант 1: Через веб-интерфейс stableaudio.com (самый простой)

  1. Откройте stableaudio.com в браузере (потребуется VPN из России)
  2. Нажмите «Sign up» и создайте аккаунт через email или войдите через Google/Apple
  3. Подтвердите email, если требуется
  4. Вы попадете в основной интерфейс с текстовым полем для описания музыки
  5. Бесплатный план позволяет генерировать ограниченное количество треков в месяц

Вариант 2: Через API (для разработчиков)

  1. Зарегистрируйтесь на platform.stability.ai
  2. Перейдите в раздел «API Keys» и создайте новый ключ
  3. В документации по адресу platform.stability.ai/docs найдите раздел Stable Audio
  4. Используйте ключ в заголовке запросов: Authorization: Bearer ваш_ключ

Пример запроса через curl:

curl -X POST https://api.stability.ai/v2beta/audio/stable-audio-3/generate \
  -H 'Authorization: Bearer YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{
    "prompt": "Upbeat electronic music with synthesizer, 120 BPM",
    "duration": 60,
    "model": "stable-audio-3-large"
  }' \
  -o output.mp3

Вариант 3: Локальный запуск через HuggingFace (для техническое продвинутых пользователей)

Модели Small и Medium с открытыми весами можно запустить локально. Требования к системе:

  • Для Small (459M): видеокарта с 8+ ГБ VRAM (NVIDIA), или 16+ ГБ оперативной памяти для CPU (медленно)
  • Для Medium (1.4B): видеокарта с 16+ ГБ VRAM или мощный CPU с 32+ ГБ RAM
  • Python 3.9 или новее, установленный на вашем компьютере

Установка через Python:

# Установите необходимые библиотеки
pip install stable-audio-tools torch torchaudio

# Загрузите модель
from stable_audio_tools import get_pretrained_model
model, model_config = get_pretrained_model('stabilityai/stable-audio-3-small')

Для пользователей без опыта программирования: более простой способ локального запуска - через интерфейс ComfyUI с установленным плагином для Stable Audio. Инструкции по установке ComfyUI есть на официальном сайте comfyui.com.

Первый запуск - что попробовать

Разберем первые шаги в веб-интерфейсе stableaudio.com - это самый доступный способ начать работу без технических сложностей.

Шаг 1: Создайте первый трек

В основном интерфейсе вы увидите текстовое поле «Describe the audio». Введите описание на английском языке - модель работает значительно лучше с английскими промптами. Хороший пример: «Calm piano melody with soft strings, slow tempo, for meditation, ambient music».

Указывайте в описании:

  • Инструменты (piano, guitar, synthesizer, drums)
  • Темп (slow, medium, fast, 120 BPM)
  • Настроение (happy, melancholic, energetic, peaceful)
  • Жанр (electronic, jazz, classical, lo-fi hip hop)
  • Назначение (background music, game soundtrack, podcast intro)

Шаг 2: Установите продолжительность

Ползунок Duration позволяет выбрать длину трека. Для первого знакомства попробуйте 30-60 секунд - это быстрее генерируется и проще оценить качество. Для полноценных треков установите 120-180 секунд.

Шаг 3: Попробуйте audio inpainting

Это одна из уникальных функций Stable Audio 3.0: возможность изменять отдельные сегменты уже сгенерированного трека, не затрагивая остальную часть. Загрузите аудиофайл, выделите нужный участок на временной шкале и опишите, что должно быть на его месте. Это мощный инструмент для точной доработки треков.

Шаг 4: Поэкспериментируйте с промптами

Попробуйте разные жанры и описания. Несколько стартовых промптов:

  • «Lo-fi hip hop beat, vinyl crackle, slow tempo, rainy day mood» - классика жанра lo-fi
  • «Epic orchestral music, brass section, dramatic climax, movie trailer style» - кино-саундтрек
  • «Relaxing cafe ambience, light jazz guitar, background chatter, warm atmosphere» - атмосфера кафе
  • «8-bit video game music, retro style, fast tempo, adventure theme» - ретро-игровая музыка

Шаг 5: Скачайте результат

Нажмите кнопку Download для скачивания трека в формате WAV или MP3. Выходные файлы имеют качество 44.1 кГц, что подходит для большинства профессиональных задач. Файлы в вашей библиотеке сохраняются в вашем аккаунте.

Ключевые фишки

Stable Audio 3.0 обладает рядом функций, которые выгодно отличают его от других генераторов музыки.

Треки длиной до 6 минут 20 секунд

Это рекорд для открытых моделей генерации музыки. Большинство конкурентов ограничиваются 30-90 секундами. Возможность генерировать полноценные треки делает Stable Audio 3.0 практически применимым для реальных проектов - создания альбомов, саундтреков к видео, длинных медитативных или фоновых треков.

Audio Inpainting - точечное редактирование аудио

Аналог инпейнтинга в изображениях, но для звука. Вы можете выделить конкретный сегмент аудио (например, 10 секунд из середины трека) и перегенерировать только его, задав новое описание. Это позволяет тонко доработать результат без полной перегенерации, сохранив удачные части трека.

Открытые веса (Open Weights)

Три из четырех версий модели (Small SFX, Small, Medium) имеют открытые веса, доступные на HuggingFace под лицензией Stability AI Community License. Это означает бесплатное использование в некоммерческих целях и возможность коммерческого применения при соблюдении условий лицензии. Пользователи могут дообучать модели на своих данных.

Коммерческие права на выходы

Важное отличие от некоторых конкурентов: пользователи Stable Audio 3.0 имеют право на коммерческое использование сгенерированной музыки. Это означает, что треки, созданные с помощью инструмента, можно использовать в коммерческих проектах - монетизированных видео, рекламе, продаже как роялти-фри музыки. Конкретные условия зависят от используемого плана и версии модели.

Специализированная модель для SFX

Отдельная модель Stable Audio 3.0 Small SFX создана специально для генерации звуковых эффектов: шаги, выстрелы, природные звуки, технические шумы, взрывы. Это открывает отдельную область применения - создание звукового дизайна для игр, кино, подкастов без необходимости лицензировать библиотеки звуков.

Семейство моделей для разных задач

Наличие четырех версий позволяет выбрать оптимальный баланс между качеством и ресурсами. Для быстрого прототипирования подойдет Small, для продакшн-качества - Large через API. При необходимости можно использовать разные модели на разных этапах работы.

Цены и ограничения

Stable Audio 3.0 предлагает несколько вариантов использования с разными условиями. Цены и лимиты указаны на момент написания и могут изменяться.

Бесплатный план (stableaudio.com):

  • Ограниченное количество генераций в месяц
  • Доступ к базовым функциям веб-интерфейса
  • Треки могут иметь водяной знак
  • Ограничения на коммерческое использование

Платные планы (stableaudio.com):

На момент написания Stability AI предлагала несколько платных уровней подписки. Актуальные цены и условия смотрите на официальном сайте - они периодически меняются в рамках обновлений коммерческой политики компании.

API (platform.stability.ai):

  • Оплата за использование (pay-per-use), списывается в кредитах
  • Стоимость зависит от выбранной модели и длины генерируемого аудио
  • Флагманская Large-модель доступна только через API
  • Актуальную тарификацию смотрите в разделе Pricing на сайте Stability AI

Локальный запуск (HuggingFace):

  • Модели Small SFX, Small и Medium - полностью бесплатно для скачивания
  • Лицензия Stability AI Community License: бесплатно для некоммерческого использования
  • Коммерческое использование требует принятия условий лицензии - читайте внимательно перед применением в бизнесе
  • Единственные расходы - вычислительные ресурсы вашего оборудования

Технические ограничения:

  • Максимальная длина трека: 6 минут 20 секунд
  • Форматы выходного аудио: WAV, MP3
  • Частота дискретизации: 44.1 кГц
  • Текстовые промпты работают лучше на английском языке
  • Качество генерации зависит от детальности и точности описания в промпте

Нужен ли VPN из России

Для работы со Stable Audio 3.0 через веб-интерфейс stableaudio.com VPN скорее всего потребуется, однако ситуация несколько лучше, чем с сервисами Google или OpenAI.

Текущая ситуация:

Stability AI - британская компания, которая не имеет прямых санкционных ограничений, специфически направленных против российских пользователей. Однако доступ к сайту и оплата могут быть затруднены по разным причинам - от технических до платежных.

Что работает без VPN:

  • Скачивание открытых весов моделей с HuggingFace - как правило, без ограничений
  • Просмотр документации и GitHub-репозиториев Stability AI

Что может требовать VPN:

  • Регистрация и вход на stableaudio.com (может блокироваться или работать нестабильно)
  • Использование API через platform.stability.ai
  • Оплата подписки с российских карт (практически невозможна без иностранной карты)

Главное преимущество для российских пользователей:

Возможность локального запуска моделей с открытыми весами - это наиболее надежный способ использования Stable Audio 3.0 без зависимости от доступности зарубежных сервисов. Скачайте модель через HuggingFace один раз - и дальше работайте полностью офлайн без VPN и без платежных ограничений.

Рекомендации:

  • Используйте VPN с серверами в Великобритании или США для доступа к веб-интерфейсу
  • Для коммерческих проектов с гарантированным доступом - настройте локальный запуск модели Medium через HuggingFace
  • Для оплаты используйте карту иностранного банка или виртуальную карту

Отдельно стоит отметить: даже без доступа к веб-интерфейсу stableaudio.com вы получаете полноценный инструмент через локальный запуск. Это уникальное преимущество Stable Audio 3.0 перед конкурентами - Suno, Udio и другие облачные сервисы не предлагают такой возможности. Для российских пользователей это особенно актуально, так как снимает зависимость от доступности зарубежных сайтов и платежных систем. Проверяйте актуальный статус доступности сервиса на момент использования.

Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Поделиться:TelegramXLinkedIn
Как вам материал?

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

Похожие материалы

Gemini 3.5 Flash: как начать пользоваться новым флагманом Google

Gemini 3.5 Flash - самая мощная модель Google для агентных задач. Запущена на Google I/O 19 мая 2026 года. Рассказываем, как получить доступ и что попробовать в первую очередь.

·8 мин

Google Pics: как пользоваться новым AI-редактором изображений от Google

Google Pics - новое приложение от Google для генерации и редактирования изображений с помощью ИИ. Представлено на Google I/O 2026. Интегрируется с Google Workspace. Рассказываем, как получить доступ.

·7 мин

Как начать пользоваться Mercury 2 -- первая диффузионная LLM от Inception Labs

Mercury 2 -- это революционная языковая модель на диффузионной архитектуре от Inception Labs: в 5 раз быстрее Claude Haiku, 128К контекст и цена $0.25 за миллион токенов. Рассказываем, как подключиться и начать работу.

·7 мин