Stable Audio Open Small翻译站点

10个月前更新 175 00

文本转音频端侧模型

所在地：

美国

语言：

英语

收录时间：

2025-05-16

官网入口手机查看

端侧模型 # AI 音频生成 # 声音设计工具 # 开源音频模型 # 文本转音频 # 端侧智能革命

Stable Audio Open Small

官网入口

Stable Audio Open Small 是 Stability AI 推出的开源文本生成音频模型，专为生成高质量的短音频片段而设计，适用于声音设计、音乐制作和多媒体内容创作等领域。

什么是 Stable Audio Open Small？

Stable Audio Open Small 是一种基于 Transformer 架构的潜在扩散模型（latent diffusion model），能够根据文本提示生成最长达 11 秒的立体声音频，采样率为 44.1kHz。

该模型由三个主要组件组成：

自编码器（Autoencoder）：将音频波形压缩为可管理的序列长度。
基于 T5 的文本嵌入（T5-based Text Embedding）：用于文本条件输入。
基于 Transformer 的扩散模型（DiT）：在自编码器的潜在空间中运行，生成音频内容。

该模型在 Freesound 和 Free Music Archive (FMA) 的 486,492 个音频样本上进行训练，所有音频文件均根据 CC0、CC BY 或 CC Sampling+ 许可，确保了数据的合法性和道德性。

核心功能与优势

🎧 高质量音频生成

Stable Audio Open Small 能够生成高质量的立体声音频，适用于各种创意项目，如视频配乐、游戏音效和音乐制作。

🛠️ 自定义微调

用户可以使用自己的音频数据对模型进行微调，从而生成符合个人风格的音频内容。例如，音乐人可以输入自己的鼓点录音，以生成新的节奏变体。

📝 简单的文本提示输入

通过简单的文本描述（如“128 BPM 的 Tech House 鼓循环”），用户即可生成相应的音频片段，操作简便。

使用限制

非商业用途：该模型仅供非商业用途使用。对于商业用途，用户需遵守 Stability AI 的许可协议。
生成长度限制：生成的音频片段最长为 11 秒，适用于短音频内容的创作。
语言支持：目前主要支持英文提示，对于其他语言的支持可能有限。

如何使用 Stable Audio Open Small？

用户可以通过 Hugging Face 平台下载该模型，并使用 stable-audio-tools 库进行推理和音频生成。以下是一个简单的 Python 示例：

import torch
import torchaudio
from einops import rearrange
from stable_audio_tools import get_pretrained_model
from stable_audio_tools.inference.generation import generate_diffusion_cond

device = "cuda" if torch.cuda.is_available() else "cpu"

# 下载模型
model, model_config = get_pretrained_model("stabilityai/stable-audio-open-small")
sample_rate = model_config["sample_rate"]
sample_size = model_config["sample_size"]

model = model.to(device)

# 设置文本提示和生成时长
conditioning = [{
    "prompt": "128 BPM tech house drum loop",
    "seconds_total": 11
}]

# 生成音频
output = generate_diffusion_cond(
    model,
    steps=8,
    conditioning=conditioning,
    sample_size=sample_size,
    sampler_type="pingpong",
    device=device
)

# 处理并保存音频
output = rearrange(output, "b d n -> d (b n)")
output = output.to(torch.float32).div(torch.max(torch.abs(output))).clamp(-1, 1).mul(32767).to(torch.int16).cpu()
torchaudio.save("output.wav", output, sample_rate)

更多详细信息和使用指南，请访问 Hugging Face 上的模型页面。

总结

Stable Audio Open Small 为声音设计师、音乐制作人和开发者提供了一个强大且易于使用的工具，能够根据文本提示生成高质量的短音频片段。其开放的特性和自定义微调能力，使其在非商业创作和研究领域具有广泛的应用前景。

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

Stable Audio Open Small翻译站点

什么是 Stable Audio Open Small？

核心功能与优势

🎧 高质量音频生成

🛠️ 自定义微调

📝 简单的文本提示输入

使用限制

如何使用 Stable Audio Open Small？

总结

相关导航

Apple AI

MiniCPM-o

AgentCPM-GUI

面壁智能

暂无评论

热门AI工具

热门AI文章

Stable Audio Open Small翻译站点

什么是 Stable Audio Open Small？

核心功能与优势

🎧 高质量音频生成

🛠️ 自定义微调

📝 简单的文本提示输入

使用限制

如何使用 Stable Audio Open Small？

总结

相关导航

Apple AI

MiniCPM-o

AgentCPM-GUI

面壁智能

暂无评论

热门AI工具

热门AI文章

AI助手标签

AI标签云