核心功能
AudioPod AI 是一套基于云端的音频处理 API 平台,专注于六大核心场景:音轨分离(Stem Separation)、文本转语音(TTS)、降噪处理、语音转文字、说话人分离和媒体提取。支持从 YouTube 链接或本地文件直接处理,异步任务模式适合大文件场景。
显著优点
1. 音轨分离专业度高:提供从单轨到 16 轨(mastering 模式)的多级分离方案,覆盖 vocals/drums/bass/guitar/piano/kick/snare/hihat 等精细分类,超越主流开源方案(如 Spleeter 的 4 轨)。
2. 多模型转录:集成 WhisperX、Whisper-Timestamped、Faster-Whisper 三种转录引擎,支持说话人分离(diarization)和词级时间戳,适合播客、会议记录。
3. 多语言 TTS:50+ 声音、60+ 语言覆盖,满足全球化内容需求。
4. 多语言 SDK:提供 Python 和 Node.js 官方 SDK,降低接入门槛。
局限与风险
- 文档/SDK 不同步:已知
mode="two"可能挂起,SDK 端点可能过时,需直接核对 API 文档 - 格式陷阱:TTS 输出可能为 WAV 但标记为 .mp3,需用 ffprobe 验证
- 商业成本:全功能需付费 API Key,高频调用成本需评估
- 数据隐私:音频文件上传至云端处理,敏感内容需谨慎
适合人群
音乐制作人( remix/采样)、播客创作者(降噪/转录/分离)、视频创作者(TTS 配音)、开发者(集成音频处理管线)。