使用说明

核心功能概述

AudioPod AI 是一款综合性 AI 音频处理 API 服务，覆盖了从创作到后期处理的全链路音频需求。其核心能力可分为六大模块：

1. AI 音乐生成

支持 text2music（带人声歌曲）、text2rap（说唱）、prompt2instrumental（纯伴奏）、lyric2vocals（纯人声）、text2samples（采样/循环）及风格迁移等任务。用户可通过自然语言描述风格、BPM、乐器配置，结合自定义歌词生成完整作品。

2. 音轨分离（Stem Separation）

提供从单轨提取到专业级16轨分离的多档模式：单轨、双轨（人声+伴奏）、四轨（+鼓点+贝斯）、六轨（+吉他+钢琴）、制作人模式（8轨）、录音室模式（12轨）及母带模式（16轨）。支持 URL 直链或本地文件输入。

3. 语音合成（TTS）

内置 50+ 音色，覆盖 60+ 语言，支持语速调节与多种输出格式。采用异步作业模式，需轮询获取结果。

4. 降噪处理

提供 "balanced" 与 "studio" 两档质量模式，支持单文件、批量处理及视频同步降噪。

5. 语音转写（STT）

基于 WhisperX 等开源模型，支持说话人分离（diarization）与单词级时间戳，兼容视频 URL 直接提取音频。

6. 媒体提取

可从 YouTube 等 URL 直接提取音频流进行处理。

显著优点

功能集成度高：单一 API 覆盖音乐生成、分离、TTS、降噪、转写五大场景，避免多供应商对接
专业级分离精度：16轨母带模式满足专业音乐制作需求
灵活的音乐创作：支持歌词驱动的完整歌曲生成，非简单伴奏loop
多语言 TTS 支持：60+ 语言覆盖，适合全球化内容生产

局限性与注意事项

SDK 可靠性存疑：官方文档明确指出 SDK 端点可能过时，建议以实际 API 文档为准
TTS 格式异常：输出文件存在扩展名与实际格式不符的情况（如 .mp3 实为 WAV），需二次验证
异步作业复杂度：多数任务需手动轮询状态，增加集成复杂度
无实时处理能力：所有任务均为离线批处理，延迟在数秒至数分钟级

适用人群

独立音乐制作人与 beatmaker（快速生成灵感素材、提取采样）
播客与视频创作者（降噪、TTS 配音、字幕生成）
音乐教育者与研究者（音轨分离分析、生成式音乐教学）
需要自动化音频处理的企业（批量化内容生产 pipeline）

常规风险提醒

API 密钥安全：需在服务端妥善保管 AUDIOPOD_API_KEY，避免客户端暴露
版权合规：生成音乐可能涉及训练数据版权争议，商用需谨慎评估
输出存储时效：Cloudflare R2 托管的生成文件需注意下载时效，建议及时转存
模型偏见：TTS 音色与音乐风格生成可能存在文化偏向，需人工审核关键内容

安全解读

AudioPod AI 技能评估

AudioPod 是一款面向音频处理的第三方 API 集成技能，提供从 AI 音乐生成到语音转录的全链路能力。该技能为纯文档型 (T-MD) 实现，仅包含 Markdown 说明与代码示例，无可执行代码，天然具备较高安全性。

核心功能

| 模块 | 能力 |

|------|------|

| **AI 音乐生成** | 文本转歌曲/说唱、生成伴奏、采样循环、人声合成，支持 7 种任务类型 |

| **音轨分离** | 2/4/6/8/12/16 轨分离模式，从人声+伴奏到鼓/贝斯/吉他/钢琴细分解 |

| **语音合成 (TTS)** | 60+ 语言、50+ 音色，支持语速调节 |

| **语音转录 (STT)** | Whisper 系列模型，支持说话人分离与词级时间戳 |

| **降噪处理** | 音频/视频降噪，平衡模式与工作室模式 |

| **媒体提取** | 支持 YouTube 等 URL 音频提取 |

显著优点

功能全面：覆盖音乐创作、音频后期、播客制作等多场景
接口统一：Python/Node SDK + REST API 双轨支持，调用方式灵活
安全设计：强制环境变量配置 API Key（AUDIOPOD_API_KEY），无硬编码风险
文档详尽：参数说明、curl 示例、已知问题提示完整

潜在局限

第三方依赖：所有处理依赖 api.audiopod.ai，服务可用性、定价策略、数据留存政策受厂商控制
T3 来源：维护者为个人开发者 (rakesh1002)，长期维护与更新频率不确定
异步任务复杂度：音乐生成、音轨分离为耗时任务，需自行实现轮询或回调逻辑
音频质量变量：AI 生成音乐的创意可控性、分离精度受模型与参数影响较大

适合人群

独立音乐人、制作人：快速生成 demo、提取伴奏进行 remix
播客/视频创作者：降噪、多说话人转录、TTS 配音
开发者：需要集成音频 AI 能力的应用构建

常规风险

1. API Key 泄露：虽然文档建议环境变量配置，但用户仍可能在代码中误写密钥
2. 敏感音频上传：商业音频、隐私通话转录上传至第三方服务器，需评估合规性
3. 成本失控：异步任务计费模式不透明，高频调用可能产生意外费用
4. 输出格式陷阱：TTS 可能返回 WAV 却标记为 .mp3，需二次验证

安全认证结论

CLS-Certify v2.1.0 扫描结果：Grade S / Score 95，无高危发现。纯文档型结构消除了代码注入与动态加载风险，网络传输经 HTTPS 加密。建议在处理敏感内容前审查 AudioPod 官方隐私政策。

ai-music text-to-speech stem-separation audio-transcription noise-reduction api music-generation whisper tts audio-editing

AudioPod 内容

references文件夹

手动下载zip · 4.8 kB

stems.mdtext/markdown

请选择文件