Stable Audio 3.0: как создавать музыку длиной до 6 минут с помощью ИИ

Stable Audio 3.0 от Stability AI - первый генератор музыки с открытыми весами, создающий треки до 6 минут. Запущен 20 мая 2026 года. Подробный гайд для начинающих.

2026-05-22·7 мин

Обновления Stable Audio (2026)

Stable Audio 3.0 (Stability AI, 20 мая 2026) вышел в 4 вариантах размеров моделей: Small SFX (459M параметров, специализация на звуковых эффектах), Small (459M параметров, для музыки), Medium (1.4B), Large (2.7B). Генерация треков: Small -- до 2 минут; Medium и Large -- до 6 минут (ранее максимум

Обучение Stable Audio 3.0 производилось на лицензированной библиотеке AudioSparx -- крупного поставщика лицензированной аудиобиблиотеки. Universal Music Group и Warner Music Group являются лицензионными партнёрами проекта, но не прямыми источниками обучающих данных: их каталоги инте

Облачный доступ: stable.audio - веб-интерфейс (Free: 20 треков/день, Premium $12/мес: 500 треков, коммерческая лицензия). API через stability.ai: $0.008 за секунду аудио. Enterprise: доступ к Large модели с SLA и расширенными лицензиями.

Stable Audio 3.0 - это новый генератор музыки и звука от компании Stability AI, официально запущенный 20 мая 2026 года. Это первый в своем роде инструмент с открытыми весами (open weights), способный создавать полноценные музыкальные треки длиной до 6 минут и 20 секунд. Ни один предыдущий open-so

Откройте stableaudio.com в браузере (потребуется VPN из России)
Нажмите «Sign up» и создайте аккаунт через email или войдите через Google/Apple
Подтвердите email, если требуется
Вы попадете в основной интерфейс с текстовым полем для описания музыки

Бесплатный

curl -X POST https://api.stability.ai/v2beta/audio/stable-audio-3/generate \
  -H 'Authorization: Bearer YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{
    "prompt": "Upbeat electronic music with synthesizer, 120 BPM",
    "duration": 60,
    "model": "stable-audio-3-larg Audio-to-audio генерация в Stable Audio 3.0. Помимо генерации с нуля, Stable Audio 3.0 поддерживает режим audio-to-audio: загрузите существующий аудиофайл и опишите, как его нужно трансформировать. Примеры: загрузить фортепианную мелодию и попросить «сделай это в стиле lo-fi hip hop» -- мо 
Важное отличие от некоторых конкурентов: пользователи Stable Audio 3.0 имеют право на коммерческое использование сгенерированной музыки. Это означает, что треки, созданные с помощью инструмента, можно использовать в коммерческих проектах - монетизированных видео, рекламе, продаже как роялти-фри м 
Бесплатный план (stableaudio.com):
Платные планы (stableaudio.com):
На момент написания Stability AI предлагала несколько платных уровней подписки. Актуальные цены и условия смотрите на официальном сайте - они периодически меняются в рамках обновлений коммерческой политики компании.
Stable Audio 3.0: обновление мая 2026 года
20 мая 2026 года Stability AI выпустила Stable Audio 3.0 -- существенное обновление платформы для генерации музыки. Версия 3.0 расширяет возможности как по длительности генерации, так и по инструментам редактирования.
Обновления Stable Audio (2026)
Stable Audio 3.0 (Stability AI, 20 мая 2026) вышел в 4 вариантах размеров моделей: Small SFX (459M параметров, специализация на звуковых эффектах), Small (459M параметров, для музыки), Medium (1.4B), Large (2.7B). Генерация треков: Small -- до 2 минут; Medium и Large -- до 6 минут (ранее максимум был 3 минуты). Открытые веса под лицензией Stability Community License -- бесплатно для некоммерческого и личного использования.
Обучение Stable Audio 3.0 производилось на лицензированной библиотеке AudioSparx -- крупного поставщика лицензированной аудиобиблиотеки. Universal Music Group и Warner Music Group являются лицензионными партнёрами проекта, но не прямыми источниками обучающих данных: их каталоги интегрированы через официальные лицензионные соглашения с Stability AI. Это делает коммерческое использование сгенерированной музыки юридически корректным для подписчиков Enterprise плана.
Локальный запуск: Stable Audio 3.0 Small работает на GPU с 8 ГБ VRAM (RTX 3060/4060). Через Diffusers библиотеку (huggingface) или AudioCraft интеграцию. ComfyUI ноды для Stable Audio 3.0 доступны в менеджере нод. Генерация 30-секундного трека занимает 15-45 секунд на RTX 4070.
Облачный доступ: stable.audio - веб-интерфейс (Free: 20 треков/день, Premium $12/мес: 500 треков, коммерческая лицензия). API через stability.ai: $0.008 за секунду аудио. Enterprise: доступ к Large модели с SLA и расширенными лицензиями.
Что это и для кого
Stable Audio 3.0 - это новый генератор музыки и звука от компании Stability AI, официально запущенный 20 мая 2026 года. Это первый в своем роде инструмент с открытыми весами (open weights), способный создавать полноценные музыкальные треки длиной до 6 минут и 20 секунд. Ни один предыдущий open-source генератор музыки не достигал такой продолжительности выходного аудио.
Stable Audio 3.0 - это не один инструмент, а целое семейство моделей с разными характеристиками. Компания выпустила четыре версии:
Stable Audio 3.0 Small SFX - компактная модель на 459 миллионов параметров, специализированная на создании звуковых эффектов (SFX). Открытые веса, доступна на HuggingFace.
Stable Audio 3.0 Small - компактная модель на 459 миллионов параметров для создания музыки (до 2 минут). Открытые веса, доступна на HuggingFace.
Stable Audio 3.0 Medium - модель на 1.4 миллиарда параметров, баланс между качеством и требованиями к ресурсам (до 6 минут). Открытые веса, доступна на HuggingFace.
Stable Audio 3.0 Large - флагманская модель на 2.7 миллиарда параметров, максимальное качество (до 6 минут). Доступна только через API, без открытых весов.
Кому подойдет Stable Audio 3.0:
Инди-музыкантам, которые хотят быстро создавать демо-версии треков или экспериментировать с жанрами
Подкастерам и ютуберам, которым нужна оригинальная фоновая музыка без лицензионных ограничений
Разработчикам игр, ищущим инструмент для генерации атмосферных саундтреков и звуковых эффектов
Режиссерам и видеографам, которые хотят создавать музыку точно под конкретную сцену
Техническим специалистам и исследователям, которые хотят запускать модель локально и изучать её архитектуру
Всем, кто ищет инструмент для генерации музыки без ежемесячной подписки - с открытыми весами можно работать бесплатно локально
Ключевое преимущество перед конкурентами - открытые веса для трех из четырех моделей. Это означает, что вы можете скачать модель и запускать её локально без интернета, без лицензионных ограничений на коммерческое использование выходов и без платы за каждую генерацию. Для сравнения: Suno, Udio и другие популярные генераторы музыки работают только в облаке и требуют подписки.
Как зарегистрироваться / установить
В зависимости от ваших потребностей есть несколько способов начать работу со Stable Audio 3.0.
Вариант 1: Через веб-интерфейс stableaudio.com (самый простой)
Откройте stableaudio.com в браузере (потребуется VPN из России)
Нажмите «Sign up» и создайте аккаунт через email или войдите через Google/Apple
Подтвердите email, если требуется
Вы попадете в основной интерфейс с текстовым полем для описания музыки
Бесплатный план позволяет генерировать ограниченное количество треков в месяц
Вариант 2: Через API (для разработчиков)
Зарегистрируйтесь на platform.stability.ai
Перейдите в раздел «API Keys» и создайте новый ключ
В документации по адресу platform.stability.ai/docs найдите раздел Stable Audio
Используйте ключ в заголовке запросов: Authorization: Bearer ваш_ключ
Пример запроса через curl:
curl -X POST https://api.stability.ai/v2beta/audio/stable-audio-3/generate \
  -H 'Authorization: Bearer YOUR_API_KEY' \
  -H 'Content-Type: application/json' \
  -d '{
    "prompt": "Upbeat electronic music with synthesizer, 120 BPM",
    "duration": 60,
    "model": "stable-audio-3-large"
  }' \
  -o output.mp3
Вариант 3: Локальный запуск через HuggingFace (для техническое продвинутых пользователей)
Модели Small и Medium с открытыми весами можно запустить локально. Требования к системе:
Для Small (459M): видеокарта с 8+ ГБ VRAM (NVIDIA), или 16+ ГБ оперативной памяти для CPU (медленно)
Для Medium (1.4B): видеокарта с 16+ ГБ VRAM или мощный CPU с 32+ ГБ RAM
Python 3.9 или новее, установленный на вашем компьютере
Установка через Python:
# Установите необходимые библиотеки
pip install stable-audio-tools torch torchaudio

# Загрузите модель
from stable_audio_tools import get_pretrained_model
model, model_config = get_pretrained_model('stabilityai/stable-audio-3-small')
Для пользователей без опыта программирования: более простой способ локального запуска - через интерфейс ComfyUI с установленным плагином для Stable Audio. Инструкции по установке ComfyUI есть на официальном сайте comfyui.com.
Первый запуск - что попробовать
Разберем первые шаги в веб-интерфейсе stableaudio.com - это самый доступный способ начать работу без технических сложностей.
Шаг 1: Создайте первый трек
В основном интерфейсе вы увидите текстовое поле «Describe the audio». Введите описание на английском языке - модель работает значительно лучше с английскими промптами. Хороший пример: «Calm piano melody with soft strings, slow tempo, for meditation, ambient music».
Указывайте в описании:
Инструменты (piano, guitar, synthesizer, drums)
Темп (slow, medium, fast, 120 BPM)
Настроение (happy, melancholic, energetic, peaceful)
Жанр (electronic, jazz, classical, lo-fi hip hop)
Назначение (background music, game soundtrack, podcast intro)
Шаг 2: Установите продолжительность
Ползунок Duration позволяет выбрать длину трека. Для первого знакомства попробуйте 30-60 секунд - это быстрее генерируется и проще оценить качество. Для полноценных треков установите 120-180 секунд.
Шаг 3: Попробуйте audio inpainting
Это одна из уникальных функций Stable Audio 3.0: возможность изменять отдельные сегменты уже сгенерированного трека, не затрагивая остальную часть. Загрузите аудиофайл, выделите нужный участок на временной шкале и опишите, что должно быть на его месте. Это мощный инструмент для точной доработки треков.
Шаг 4: Поэкспериментируйте с промптами
Попробуйте разные жанры и описания. Несколько стартовых промптов:
«Lo-fi hip hop beat, vinyl crackle, slow tempo, rainy day mood» - классика жанра lo-fi
«Epic orchestral music, brass section, dramatic climax, movie trailer style» - кино-саундтрек
«Relaxing cafe ambience, light jazz guitar, background chatter, warm atmosphere» - атмосфера кафе
«8-bit video game music, retro style, fast tempo, adventure theme» - ретро-игровая музыка
Шаг 5: Скачайте результат
Нажмите кнопку Download для скачивания трека в формате WAV или MP3. Выходные файлы имеют качество 44.1 кГц, что подходит для большинства профессиональных задач. Файлы в вашей библиотеке сохраняются в вашем аккаунте.
Ключевые фишки
Stable Audio 3.0 обладает рядом функций, которые выгодно отличают его от других генераторов музыки.
Треки длиной до 6 минут 20 секунд (Medium и Large модели)
Это рекорд для открытых моделей генерации музыки. Модели Medium и Large поддерживают треки до 6 минут, тогда как компактная модель Small ограничена 2 минутами. Большинство конкурентов ограничиваются 30-90 секундами. Возможность генерировать полноценные треки делает Stable Audio 3.0 практически применимым для реальных проектов - создания альбомов, саундтреков к видео, длинных медитативных или фоновых треков.
Audio Inpainting - точечное редактирование аудио
Аналог инпейнтинга в изображениях, но для звука. Вы можете выделить конкретный сегмент аудио (например, 10 секунд из середины трека) и перегенерировать только его, задав новое описание. Это позволяет тонко доработать результат без полной перегенерации, сохранив удачные части трека.
Audio-to-audio генерация в Stable Audio 3.0. Помимо генерации с нуля, Stable Audio 3.0 поддерживает режим audio-to-audio: загрузите существующий аудиофайл и опишите, как его нужно трансформировать. Примеры: загрузить фортепианную мелодию и попросить «сделай это в стиле lo-fi hip hop» -- модель адаптирует тембр, ритм и атмосферу. Или загрузить демо-запись и попросить добавить струнную секцию. Это существенно расширяет практические сценарии применения для музыкантов и продюсеров.
Открытые веса (Open Weights)
Три из четырех версий модели (Small SFX, Small, Medium) имеют открытые веса, доступные на HuggingFace под лицензией Stability AI Community License. Это означает бесплатное использование в некоммерческих целях и возможность коммерческого применения при соблюдении условий лицензии. Пользователи могут дообучать модели на своих данных.
Коммерческие права на выходы
Важное отличие от некоторых конкурентов: пользователи Stable Audio 3.0 имеют право на коммерческое использование сгенерированной музыки. Это означает, что треки, созданные с помощью инструмента, можно использовать в коммерческих проектах - монетизированных видео, рекламе, продаже как роялти-фри музыки. Конкретные условия зависят от используемого плана и версии модели.
Специализированная модель для SFX
Отдельная модель Stable Audio 3.0 Small SFX создана специально для генерации звуковых эффектов: шаги, выстрелы, природные звуки, технические шумы, взрывы. Это открывает отдельную область применения - создание звукового дизайна для игр, кино, подкастов без необходимости лицензировать библиотеки звуков.
Семейство моделей для разных задач
Наличие четырех версий позволяет выбрать оптимальный баланс между качеством и ресурсами. Для быстрого прототипирования подойдет Small, для продакшн-качества - Large через API. При необходимости можно использовать разные модели на разных этапах работы.
Цены и ограничения
Stable Audio 3.0 предлагает несколько вариантов использования с разными условиями. Цены и лимиты указаны на момент написания и могут изменяться.
Бесплатный план (stableaudio.com):
Ограниченное количество генераций в месяц
Доступ к базовым функциям веб-интерфейса
Треки могут иметь водяной знак
Ограничения на коммерческое использование
Платные планы (stableaudio.com):
На момент написания Stability AI предлагала несколько платных уровней подписки. Актуальные цены и условия смотрите на официальном сайте - они периодически меняются в рамках обновлений коммерческой политики компании.
API (platform.stability.ai):
Оплата за использование (pay-per-use), списывается в кредитах
Стоимость зависит от выбранной модели и длины генерируемого аудио
Флагманская Large-модель доступна только через API
Актуальную тарификацию смотрите в разделе Pricing на сайте Stability AI
Локальный запуск (HuggingFace):
Модели Small SFX, Small и Medium - полностью бесплатно для скачивания
Лицензия Stability AI Community License: бесплатно для некоммерческого использования
Коммерческое использование требует принятия условий лицензии - читайте внимательно перед применением в бизнесе
Единственные расходы - вычислительные ресурсы вашего оборудования
Технические ограничения:
Максимальная длина трека: 6 минут 20 секунд
Форматы выходного аудио: WAV, MP3
Частота дискретизации: 44.1 кГц
Текстовые промпты работают лучше на английском языке
Качество генерации зависит от детальности и точности описания в промпте
Нужен ли VPN из России
Для работы со Stable Audio 3.0 через веб-интерфейс stableaudio.com VPN скорее всего потребуется, однако ситуация несколько лучше, чем с сервисами Google или OpenAI.
Текущая ситуация:
Stability AI - британская компания, которая не имеет прямых санкционных ограничений, специфически направленных против российских пользователей. Однако доступ к сайту и оплата могут быть затруднены по разным причинам - от технических до платежных.
Что работает без VPN:
Скачивание открытых весов моделей с HuggingFace - как правило, без ограничений
Просмотр документации и GitHub-репозиториев Stability AI
Что может требовать VPN:
Регистрация и вход на stableaudio.com (может блокироваться или работать нестабильно)
Использование API через platform.stability.ai
Оплата подписки с российских карт (практически невозможна без иностранной карты)
Главное преимущество для российских пользователей:
Возможность локального запуска моделей с открытыми весами - это наиболее надежный способ использования Stable Audio 3.0 без зависимости от доступности зарубежных сервисов. Скачайте модель через HuggingFace один раз - и дальше работайте полностью офлайн без VPN и без платежных ограничений.
Рекомендации:
Используйте VPN с серверами в Великобритании или США для доступа к веб-интерфейсу
Для коммерческих проектов с гарантированным доступом - настройте локальный запуск модели Medium через HuggingFace
Для оплаты используйте карту иностранного банка или виртуальную карту
Отдельно стоит отметить: даже без доступа к веб-интерфейсу stableaudio.com вы получаете полноценный инструмент через локальный запуск. Это уникальное преимущество Stable Audio 3.0 перед конкурентами - Suno, Udio и другие облачные сервисы не предлагают такой возможности. Для российских пользователей это особенно актуально, так как снимает зависимость от доступности зарубежных сайтов и платежных систем. Проверяйте актуальный статус доступности сервиса на момент использования.
Stable Audio 3.0: обновление мая 2026 года
20 мая 2026 года Stability AI выпустила Stable Audio 3.0 -- существенное обновление платформы для генерации музыки. Версия 3.0 расширяет возможности как по длительности генерации, так и по инструментам редактирования.
Ключевые изменения в Stable Audio 3.0:
6 минут в одной генерации -- максимальная длительность трека увеличена до 6 минут.
Inpainting / точечное редактирование -- новая функция позволяет редактировать конкретные секции существующего аудио.
Лицензионные соглашения -- Stability AI подписала соглашения с партнёрами. Обучение на базе лицензированной библиотеки AudioSparx; UMG и WMG -- лицензионные партнёры, чьи каталоги доступны через официальные соглашения.
Audio-to-audio -- загрузите существующий аудиофайл и трансформируйте его через текстовый промпт: измените жанр, темп, инструментальный состав, сохранив структуру оригинала.
Новые варианты модели
Stable Audio 3.0 представлен в нескольких вариантах, каждый из которых оптимизирован для конкретных задач:
Small-Music -- компактная модель для генерации музыкальных треков до 2 минут. Работает быстрее основной версии при сохранении приемлемого качества. Поддерживает запуск на CPU без GPU.
Small-SFX -- специализированная компактная модель для генерации звуковых эффектов (SFX). Идеальна для геймдева, видеопроизводства, подкастов -- создания звуков природы, технических эффектов, атмосферных звуков.
Medium -- промежуточный вариант (до 6 минут), балансирующий качество и скорость генерации. Открытые веса доступны на HuggingFace.
Запуск на CPU: без требований к GPU
Small-модели (Small-Music и Small-SFX) разработаны для работы без видеокарты -- на обычном CPU. Это значит, что технически подготовленные пользователи могут запускать Stable Audio локально даже на обычных ноутбуках или серверах без GPU.
Веса модели на Hugging Face
Веса моделей Stable Audio 3.0 опубликованы на платформе Hugging Face. Это открывает возможности для:
Локального запуска без зависимости от облачного сервиса
Файн-тюнинга (дообучения) на собственных данных
Интеграции в собственные приложения и пайплайны
Исследовательских и образовательных целей
Для доступа к весам необходимо принять условия лицензии на странице модели на Hugging Face. Коммерческое использование -- согласно условиям лицензии Stability AI.
Архитектура SAME: основа Stable Audio 3.0
Stable Audio 3.0 построен на архитектуре SAME (Semantically-Aligned Music Autoencoder). Это специализированный автоэнкодер, обученный понимать семантическую структуру музыки - не просто акустические паттерны, а музыкальные концепции: ритм, гармония, тембр, динамика. Благодаря SAME модель точнее следует текстовому описанию и генерирует более структурированные и музыкально осмысленные треки по сравнению с предыдущими генераторами.
Корпоративная лицензия для организаций. Stability AI предлагает специальную корпоративную лицензию для организаций с оборотом свыше 1 млн долларов в год (на момент написания). Корпоративная лицензия включает юридическую защиту: Stability AI берёт на себя ответственность в случае претензий по авторским правам на сгенерированный контент. Для оформления свяжитесь с отделом продаж через stability.ai/enterprise.
Этот материал подготовлен командой AI-агентов AravanaAI и проверен главным редактором.

Поделиться:TelegramXLinkedIn

Как вам материал?

Теги:Stable AudioStability AIмузыкагенератор музыкиИИ

Хотите получать подобные материалы раньше?

Aravana Intelligence — авторская аналитика и закрытый круг для тех, кто думает на шаг вперёд.

Узнать про Intelligence

Не пропускайте важное

Еженедельный дайджест Aravana — ключевые события в AI, робототехнике и longevity.

ПредыдущаяТрамп в последний момент отказался подписывать указ об AI-безопасностиСледующаяSora 2 от OpenAI: как создавать видео с помощью AI

Похожие материалы

С чего начать·Гайд
Как начать пользоваться Agno: Python-фреймворк для создания AI-агентов
Agno (бывший phidata) - один из самых популярных Python-фреймворков для построения AI-агентов с 39k+ звезд на GitHub. Пошаговый гайд: установка, первый агент за 5 минут, мультиагентные команды и деплой в продакшн.
2026-07-14·8 мин
С чего начать·Гайд
Seedance 2.5: как начать пользоваться генератором видео от ByteDance
Seedance 2.5 от ByteDance генерирует нативное 30-секундное видео в один проход, принимает до 50 мультимодальных референсов и позволяет редактировать отдельные фрагменты без перегенерации всего клипа.
2026-07-13·7 мин
С чего начать·Гайд
ChatGPT Work: как начать пользоваться агентным рабочим столом OpenAI
9 июля 2026 OpenAI запустила ChatGPT Work -- агента, который берёт у вас целый проект, сам планирует шаги, работает часами в фоне и возвращает готовый документ, таблицу или презентацию.
2026-07-13·8 мин