使用说明

核心功能

AudioPod AI 提供完整的AI音频处理能力，覆盖音乐生成（text-to-music、rap、instrumentals、vocals、samples）、分轨分离（2-16轨模式，支持vocals/drums/bass/guitar/piano等）、语音合成（60+语言/50+音色）、降噪处理（balanced/studio模式）、语音转录（Whisper系列模型，支持说话人分离与字级时间戳）及媒体提取。

显著优点

功能整合度高：单一API覆盖音乐创作、后期制作、语音交互全链路，无需对接多家服务。分轨分离专业性强：提供业内罕见的16轨studio模式，满足专业混音需求。音乐生成灵活：支持歌词驱动的完整歌曲生成，也可纯prompt生成instrumentals/samples。多语言TTS：60+语言覆盖，适合全球化应用。SDK与REST双支持：Python/Node.js SDK完善，同时提供详细cURL示例。

潜在局限

稳定性问题：2轨分离模式存在已知hang bug，需用4轨+ffmpeg绕行。文档/SDK同步延迟：部分SDK端点可能过时，需以实际API文档为准。TTS格式异常：输出偶现WAV内容却标.mp3扩展名，需额外检测转换。异步任务管理：多数功能采用submit-poll模式，需自行实现等待逻辑，增加集成复杂度。

适合人群

独立音乐人/制作人：快速生成demo、分离 stems 用于remix
播客/视频创作者：降噪、TTS配音、自动字幕生成
开发者/创业公司：构建AI音乐、语音交互、内容工具类产品
教育/媒体机构：批量音频处理与多语言内容生产

常规风险

API密钥泄露：需妥善保管AUDIOPOD_API_KEY，建议服务端调用避免前端暴露
版权不确定性：AI生成音乐的版权归属因地区而异，商用需确认许可条款
成本累积：异步任务超时设置不当可能导致轮询请求浪费
输出质量波动：音乐生成效果依赖prompt工程，复杂编曲需求可能需要多次迭代

安全解读

核心用法

AudioPod 是一个纯文档型 API 参考指南，为 AudioPod AI 云服务提供完整的 Python SDK 和 cURL 调用示例。涵盖四大功能模块：

AI 音乐生成 (client.music.*)：支持文本生成完整歌曲 (text2music)、说唱 (text2rap)、纯伴奏 (prompt2instrumental)、人声 (lyric2vocals)、采样循环 (text2samples) 及风格迁移 (audio2audio)。需通过 prompt 描述风格，lyrics 提供歌词，duration 指定时长（默认 30 秒）。

分轨分离 (client.stems.*)：将音频拆解为独立音轨，提供 8 种模式：single（单轨）、two（人声+伴奏）、four（+鼓+贝斯）、six（+吉他+钢琴）、producer（8 轨）、studio（12 轨）、mastering（16 轨）。支持 URL 直链或本地文件输入，可通过 stem 参数单独提取特定轨道。

语音合成与转录 (client.voice.*, client.transcription.*)：TTS 支持 50+ 声音、60+ 语言，注意 endpoint 使用 form-data 而非 JSON；转录基于 Whisper 系列模型，支持说话人分离 (speaker_diarization) 和词级时间戳。

音频修复 (client.denoiser.*)：降噪提供 balanced 和 studio 两档质量，支持批量处理和视频保留画面的降噪。

显著优点

功能全面：一站式覆盖音乐创作、音频编辑、语音处理的完整工作流，从生成到分离再到后期处理。
纯文档零风险：无可执行代码，无依赖注入风险，API 密钥通过环境变量或构造函数传递，符合安全最佳实践。
多语言 SDK：同时提供 Python 和 Node.js 官方 SDK，降低接入门槛。
灵活的分轨能力：从快速提取人声到专业级 16 轨母带分离，满足从业余到制作人的不同需求。

潜在缺点与局限性

来源可信度 T3：维护者为个人开发者账号，非知名公司或开源基金会背书，用户需自行评估 AudioPod AI 服务的商业稳定性。
依赖第三方云服务：所有处理在远端完成，音频数据上传至 Cloudflare R2 存储，存在数据留存和跨境合规考量；对敏感内容需谨慎。
功能稳定性问题：文档明确标注 mode="two" 分轨可能挂起，SDK 端点可能过时，TTS 输出格式可能与扩展名不符，生产环境需额外验证。
异步任务模型：音乐生成和分轨为异步作业，需手动轮询状态，增加调用复杂度。

适合人群

音乐制作人、DJ、remix 创作者：需要快速分离人声/乐器或生成伴奏。
播客与视频创作者：批量降噪、语音合成、自动转录生成字幕。
AI 音乐实验者：探索文本驱动音乐生成的工作流。
开发者：需集成音频处理能力的应用开发者（需自行评估服务商可信度）。

常规风险

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| 数据隐私 | 音频上传至第三方云端，存储于 Cloudflare R2 | 避免上传含 PII 或商业机密的敏感音频；了解服务商数据删除政策 |

| API 密钥泄露 | 密钥硬编码风险 | 使用 `AUDIOPOD_API_KEY` 环境变量，定期轮换密钥 |

| 服务可用性 | T3 来源，无企业 SLA 保障 | 关键业务场景准备降级方案或本地替代工具 |

| 功能异常 | 部分模式有已知 bug | 参考文档 workarounds，优先使用 4-stem 而非 2-stem 模式 |

ai-music text-to-speech stem-separation audio-processing transcription noise-reduction api music-generation

AudioPod 内容

references文件夹

手动下载zip · 4.9 kB

stems.mdtext/markdown

请选择文件