Voice Agent

🎙️ 让AI能听会说的本地语音引擎

audio-video榜 #1

为AI代理提供本地语音交互能力,支持Whisper语音识别与AWS Polly语音合成,需自建后端服务。

收藏
14.5k
安装
3.7k
版本
1.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Voice Agent 是一款客户端语音交互技能,为AI代理添加"说"与"听"的能力。它通过本地运行的后端API(端口8000)实现两大核心功能:

1. 语音转文字(STT):调用本地Whisper模型将用户音频转录为文本
2. 文字转语音(TTS):使用AWS Polly将AI回复合成为自然语音

典型工作流:用户发送音频 → transcribe转录 → AI生成回复 → synthesize合成音频 → 直接发送音频文件(无文字说明)。

显著优点

  • 隐私友好:Whisper在本地运行,语音数据不上传云端转录
  • 音质优秀:AWS Polly提供高质量神经网络语音,支持多语言
  • 架构清晰:客户端设计,不侵入容器或服务管理层
  • 成本可控:AWS Polly按用量计费,本地Whisper零API成本

潜在局限

  • 依赖复杂:必须自建并维护后端服务(Python环境+Whisper+AWS凭证)
  • 网络依赖:需保持localhost:8000服务存活,无自动容错机制
  • AWS门槛:需要AWS账号及IAM凭证配置,存在云端成本
  • 无服务自愈:后端故障时仅能提示用户手动修复

适合人群

  • 注重语音隐私、愿意自建基础设施的技术用户
  • 已有AWS账户、需要高质量TTS的开发者
  • 追求"纯语音交互"体验(音频优先模式)的场景

常规风险

  • 服务可用性:后端未启动时技能完全失效
  • AWS凭证泄露:需妥善保管~/.aws/credentials
  • 成本不可控:高频使用Polly可能产生意外账单
  • 本地资源占用:Whisper模型加载消耗GPU/内存资源

Voice Agent 内容

暂无文件树

手动下载zip · 3.7 kB
contentapplication/octet-stream
请选择文件