Voice Agent

🎙️ 让AI能听会说的本地语音引擎

为AI代理提供本地语音交互能力,支持Whisper语音识别与AWS Polly语音合成,需自建后端服务。

收藏
14.5k
安装
3.7k
版本
1.1.0
CLS 安全性认证2026-05-04
点击查看完整报告 >

使用说明

核心用法

Voice Agent 是一款客户端语音交互技能,为AI代理添加"说"与"听"的能力。它通过本地运行的后端API(端口8000)实现两大核心功能:

1. 语音转文字(STT):调用本地Whisper模型将用户音频转录为文本
2. 文字转语音(TTS):使用AWS Polly将AI回复合成为自然语音

典型工作流:用户发送音频 → transcribe转录 → AI生成回复 → synthesize合成音频 → 直接发送音频文件(无文字说明)。

显著优点

  • 隐私友好:Whisper在本地运行,语音数据不上传云端转录
  • 音质优秀:AWS Polly提供高质量神经网络语音,支持多语言
  • 架构清晰:客户端设计,不侵入容器或服务管理层
  • 成本可控:AWS Polly按用量计费,本地Whisper零API成本

潜在局限

  • 依赖复杂:必须自建并维护后端服务(Python环境+Whisper+AWS凭证)
  • 网络依赖:需保持localhost:8000服务存活,无自动容错机制
  • AWS门槛:需要AWS账号及IAM凭证配置,存在云端成本
  • 无服务自愈:后端故障时仅能提示用户手动修复

适合人群

  • 注重语音隐私、愿意自建基础设施的技术用户
  • 已有AWS账户、需要高质量TTS的开发者
  • 追求"纯语音交互"体验(音频优先模式)的场景

常规风险

  • 服务可用性:后端未启动时技能完全失效
  • AWS凭证泄露:需妥善保管~/.aws/credentials
  • 成本不可控:高频使用Polly可能产生意外账单
  • 本地资源占用:Whisper模型加载消耗GPU/内存资源

安全解读

核心用法

Voice Agent 是一个纯客户端语音工具,通过本地 HTTP API 实现语音交互。核心工作流为:接收用户音频 → 调用 transcribe 转文字 → AI 生成回复 → 调用 synthesize 合成语音 → 直接发送音频文件。所有操作均通过 client.py 脚本与本地 localhost:8000 服务通信。

显著优点

  • 零依赖架构:仅使用 Python 标准库(urllib),无第三方包,供应链攻击面为零
  • 功能聚焦:专注语音 I/O,不启动容器或服务,职责边界清晰
  • 本地隐私优先:Whisper 转录在本地运行,敏感语音数据不上传云端
  • 代码简洁可信:129 行代码结构清晰,有适当错误处理,无混淆代码

潜在局限

  • 依赖外部后端:必须自行部署并维护 localhost:8000 服务,增加运维成本
  • HTTP 明文通信:本地 API 未加密,存在理论上的中间人风险(虽本地场景风险极低)
  • T3 来源:个人开发者维护,长期更新与社区支持能力存疑
  • 无许可证声明:当前未指定开源协议,法律使用边界模糊

适合人群

  • 需要本地化语音交互的 AI Agent 开发者
  • 注重隐私、不愿将语音数据发送至云端服务的用户
  • 已具备本地 Whisper/AWS Polly 部署能力的技术用户

常规风险

  • 后端不可用风险:服务未启动或端口冲突时功能完全失效
  • 路径遍历隐患:文件路径参数未经严格校验,恶意构造路径可能导致非预期文件访问
  • 超时配置偏保守:默认 2 秒超时在网络波动或负载较高时可能频繁失败

Voice Agent 内容

scripts文件夹
手动下载zip · 3.7 kB
client.pytext/plain
请选择文件