discord-voice

🎙️ Discord实时AI语音对话助手

🥥12总安装量 5评分人数 4
100% 的用户推荐

Clawdbot官方Discord语音插件,集成OpenAI/Deepgram语音转文本与TTS合成,实现AI实时语音对话,延迟低至1秒。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ API 密钥通过环境变量或配置文件传入,无硬编码,支持最小权限配置
  • ✅ 提供 `allowedUsers` 白名单机制,可限制语音功能访问用户
  • ✅ 所有外部 API 调用均使用 HTTPS/WSS 加密传输,无敏感数据明文暴露
  • ⚠️ 依赖多个外部云服务(OpenAI/Deepgram/ElevenLabs),存在可用性与数据跨境传输风险
  • ⚠️ 未内置速率限制与 API 调用审计日志,公开部署需额外防护

使用说明

核心用法

Discord Voice Skill 是 Clawdbot 框架的官方语音交互插件,让 AI 能够实时加入 Discord 语音频道进行双向对话。用户通过 /voice join 命令或 Agent 工具邀请 Bot 进入频道后,即可像与真人通话一样自然交流——说话被自动识别为文字,经 Claude 处理后以语音形式回复。

该插件支持完整的语音交互链路:语音活动检测(VAD)自动捕捉用户发言 → 语音转文本(STT,支持 OpenAI Whisper 或 Deepgram 流式识别)→ 文本交由 Clawdbot Agent 处理 → 文本转语音(TTS,支持 OpenAI 或 ElevenLabs)→ 音频播放。Deepgram 流式模式可将端到端延迟压缩约 1 秒,配合 Barge-in 打断功能,实现接近真人的对话节奏。

显著优点

低延迟体验:Deepgram WebSocket 流式 STT 相比传统批处理节省约 1 秒延迟,实时反馈感强。

灵活供应商配置:STT 和 TTS 均可独立选择供应商,Whisper/Deepgram × OpenAI/ElevenLabs 四种组合满足不同预算与质量需求。

自然交互设计:Barge-in 支持用户随时打断 Bot 发言;VAD 三档灵敏度可调,适应不同环境噪音。

高可用性:自动心跳监测与断线重连(最多 3 次指数退避),保障长时间会话稳定性。

权限可控allowedUsers 白名单机制可限制特定用户访问,适合私有或半开放场景。

潜在缺点与局限性

单频道限制:每个 Discord 服务器同时仅能连接一个语音频道,无法多频道并发服务。

外部依赖风险:核心功能强依赖 OpenAI/Deepgram/ElevenLabs 的 API 可用性与网络质量,任一服务故障将导致功能降级或中断。

成本累积:实时语音涉及持续的 STT+TTS API 调用,高频使用场景下费用可能显著高于纯文本交互。

系统依赖复杂:需预装 ffmpeg、build-essential 等原生编译工具,Windows 环境部署门槛较高。

录音时长限制:默认 30 秒最大录音时长,长段发言会被截断,需用户分句交互。

适合的目标群体

  • Discord 社区运营者:为游戏、学习、兴趣社群提供 24/7 AI 语音助手
  • 远程协作团队:在语音频道中快速查询知识库、记录会议纪要
  • 开发者与极客:希望为 Clawdbot 扩展多模态交互能力的早期采用者
  • 教育/培训场景:语言练习、实时问答等需要语音反馈的教学应用

使用风险

API 配额与费用:未设置速率限制,公开服务器可能因高频调用导致 API 账单激增,建议配合 allowedUsers 与平台级限额使用。

隐私合规:语音数据需传输至 OpenAI/Deepgram 等第三方进行识别,涉及音频数据跨境处理,企业用户需评估 GDPR/个人信息保护合规性。

网络稳定性:实时音频对网络抖动敏感,弱网环境下可能出现识别丢失或播放卡顿。

Token 泄露风险:Discord Bot Token 与 API Key 若配置不当(如误提交至 Git),可能导致 Bot 被恶意控制或 API 配额被盗用。

discord-voice 内容

文件夹图标src文件夹
手动下载zip · 37.0 kB
config.tstext/plain
请选择文件