Stable Audio Open Small翻译站点

2周前更新 12 00
Stable Audio Open SmallStable Audio Open Small

Stable Audio Open Small 是 Stability AI 推出的开源文本生成音频模型,专为生成高质量的短音频片段而设计,适用于声音设计、音乐制作和多媒体内容创作等领域。


什么是 Stable Audio Open Small?

Stable Audio Open Small 是一种基于 Transformer 架构的潜在扩散模型(latent diffusion model),能够根据文本提示生成最长达 11 秒的立体声音频,采样率为 44.1kHz。

该模型由三个主要组件组成:

  • 自编码器(Autoencoder):将音频波形压缩为可管理的序列长度。

  • 基于 T5 的文本嵌入(T5-based Text Embedding):用于文本条件输入。

  • 基于 Transformer 的扩散模型(DiT):在自编码器的潜在空间中运行,生成音频内容。

该模型在 Freesound 和 Free Music Archive (FMA) 的 486,492 个音频样本上进行训练,所有音频文件均根据 CC0、CC BY 或 CC Sampling+ 许可,确保了数据的合法性和道德性。 


核心功能与优势

🎧 高质量音频生成

Stable Audio Open Small 能够生成高质量的立体声音频,适用于各种创意项目,如视频配乐、游戏音效和音乐制作。

🛠️ 自定义微调

用户可以使用自己的音频数据对模型进行微调,从而生成符合个人风格的音频内容。例如,音乐人可以输入自己的鼓点录音,以生成新的节奏变体。 

📝 简单的文本提示输入

通过简单的文本描述(如“128 BPM 的 Tech House 鼓循环”),用户即可生成相应的音频片段,操作简便。


使用限制

  • 非商业用途:该模型仅供非商业用途使用。对于商业用途,用户需遵守 Stability AI 的许可协议。

  • 生成长度限制:生成的音频片段最长为 11 秒,适用于短音频内容的创作。

  • 语言支持:目前主要支持英文提示,对于其他语言的支持可能有限。


如何使用 Stable Audio Open Small?

用户可以通过 Hugging Face 平台下载该模型,并使用 stable-audio-tools 库进行推理和音频生成。以下是一个简单的 Python 示例:

import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond

device = "cuda" if torch.cuda.is_available() else "cpu"

# 下载模型
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-small")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]

model = model.to(device)

# 设置文本提示和生成时长
conditioning = [{
    "prompt": "128 BPM tech house drum loop",
    "seconds_total": 11
}]

# 生成音频
output = generate_diffusion_cond(
    model,
    steps=8,
    conditioning=conditioning,
    sample_size=sample_size,
    sampler_type="pingpong",
    device=device
)

# 处理并保存音频
output = rearrange(output, "b d n -> d (b n)")
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)

更多详细信息和使用指南,请访问 Hugging Face 上的模型页面。


总结

Stable Audio Open Small 为声音设计师、音乐制作人和开发者提供了一个强大且易于使用的工具,能够根据文本提示生成高质量的短音频片段。其开放的特性和自定义微调能力,使其在非商业创作和研究领域具有广泛的应用前景。

相关导航

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...