核心用法
Voice Agent 是一款客户端语音交互技能,为AI代理添加"说"与"听"的能力。它通过本地运行的后端API(端口8000)实现两大核心功能:
1. 语音转文字(STT):调用本地Whisper模型将用户音频转录为文本
2. 文字转语音(TTS):使用AWS Polly将AI回复合成为自然语音
典型工作流:用户发送音频 → transcribe转录 → AI生成回复 → synthesize合成音频 → 直接发送音频文件(无文字说明)。
显著优点
- 隐私友好:Whisper在本地运行,语音数据不上传云端转录
- 音质优秀:AWS Polly提供高质量神经网络语音,支持多语言
- 架构清晰:客户端设计,不侵入容器或服务管理层
- 成本可控:AWS Polly按用量计费,本地Whisper零API成本
潜在局限
- 依赖复杂:必须自建并维护后端服务(Python环境+Whisper+AWS凭证)
- 网络依赖:需保持localhost:8000服务存活,无自动容错机制
- AWS门槛:需要AWS账号及IAM凭证配置,存在云端成本
- 无服务自愈:后端故障时仅能提示用户手动修复
适合人群
- 注重语音隐私、愿意自建基础设施的技术用户
- 已有AWS账户、需要高质量TTS的开发者
- 追求"纯语音交互"体验(音频优先模式)的场景
常规风险
- 服务可用性:后端未启动时技能完全失效
- AWS凭证泄露:需妥善保管
~/.aws/credentials - 成本不可控:高频使用Polly可能产生意外账单
- 本地资源占用:Whisper模型加载消耗GPU/内存资源