

Stable Audio Open Small 是 Stability AI 推出的开源文本生成音频模型,专为生成高质量的短音频片段而设计,适用于声音设计、音乐制作和多媒体内容创作等领域。
什么是 Stable Audio Open Small?
Stable Audio Open Small 是一种基于 Transformer 架构的潜在扩散模型(latent diffusion model),能够根据文本提示生成最长达 11 秒的立体声音频,采样率为 44.1kHz。
该模型由三个主要组件组成:
自编码器(Autoencoder):将音频波形压缩为可管理的序列长度。
基于 T5 的文本嵌入(T5-based Text Embedding):用于文本条件输入。
基于 Transformer 的扩散模型(DiT):在自编码器的潜在空间中运行,生成音频内容。
该模型在 Freesound 和 Free Music Archive (FMA) 的 486,492 个音频样本上进行训练,所有音频文件均根据 CC0、CC BY 或 CC Sampling+ 许可,确保了数据的合法性和道德性。
核心功能与优势
🎧 高质量音频生成
Stable Audio Open Small 能够生成高质量的立体声音频,适用于各种创意项目,如视频配乐、游戏音效和音乐制作。
🛠️ 自定义微调
用户可以使用自己的音频数据对模型进行微调,从而生成符合个人风格的音频内容。例如,音乐人可以输入自己的鼓点录音,以生成新的节奏变体。
📝 简单的文本提示输入
通过简单的文本描述(如“128 BPM 的 Tech House 鼓循环”),用户即可生成相应的音频片段,操作简便。
使用限制
非商业用途:该模型仅供非商业用途使用。对于商业用途,用户需遵守 Stability AI 的许可协议。
生成长度限制:生成的音频片段最长为 11 秒,适用于短音频内容的创作。
语言支持:目前主要支持英文提示,对于其他语言的支持可能有限。
如何使用 Stable Audio Open Small?
用户可以通过 Hugging Face 平台下载该模型,并使用 stable-audio-tools 库进行推理和音频生成。以下是一个简单的 Python 示例:
import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond
device = "cuda" if torch.cuda.is_available() else "cpu"
# 下载模型
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-small")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]
model = model.to(device)
# 设置文本提示和生成时长
conditioning = [{
"prompt": "128 BPM tech house drum loop",
"seconds_total": 11
}]
# 生成音频
output = generate_diffusion_cond(
model,
steps=8,
conditioning=conditioning,
sample_size=sample_size,
sampler_type="pingpong",
device=device
)
# 处理并保存音频
output = rearrange(output, "b d n -> d (b n)")
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)
更多详细信息和使用指南,请访问 Hugging Face 上的模型页面。
总结
Stable Audio Open Small 为声音设计师、音乐制作人和开发者提供了一个强大且易于使用的工具,能够根据文本提示生成高质量的短音频片段。其开放的特性和自定义微调能力,使其在非商业创作和研究领域具有广泛的应用前景。
相关导航

一个能操作手机的GUI Agent大模型。AgentCPM-GUI是基于多模态大语言模型的开源GUI自动化框架,通过分层智能体架构实现跨平台复杂任务处理,重塑人机交互范式

MiniCPM-o
一个适用于手机上的 GPT-4o 级别的视觉、语音和多模态直播 MLLM。MiniCPM-o 是 MiniCPM-V 衍生出的最新端侧多模态 LLM(MLLM)系列

面壁智能
专注轻量高性能大模型(端侧模型部署)

Apple AI
从设备端神经引擎到伦理化AI设计,深度揭秘苹果如何以20亿设备为基盘,在生成式AI浪潮中走出「第三条道路」
暂无评论...