Discord Voice

🎙️ Discord 语音频道实时 AI 对话

Discord语音频道实时AI对话,支持多引擎语音转写与合成,代码安全规范,适合需要语音交互的社区机器人场景。

收藏
19.7k
安装
5.6k
版本
0.1.6
CLS 安全性认证2026-06-03
点击查看完整报告 >

使用说明

核心用法

Discord Voice 是 Clawdbot 的语音交互插件,实现 Discord 语音频道内的实时 AI 对话。用户加入语音频道后,可通过自然语音与 Claude AI 交流——语音被自动识别转写为文本,经 AI 处理后以合成语音播放回应。

接入方式

  • Slash 命令/discord_voice join <channel> 加入频道
  • CLI 工具clawdbot discord_voice join <channelId>
  • Agent 工具:直接调用 discord_voice 工具执行 join/leave/speak/status 动作

完整语音链路:语音活动检测(VAD) → 音频录制 → 语音转文本(STT) → Claude 处理 → 文本转语音(TTS) → 语音播放。支持 Deepgram 流式 STT(延迟降低约1秒)和智能打断(Barge-in),对话更自然流畅。

显著优点

1. 多提供商灵活配置:STT 支持 OpenAI Whisper、Deepgram、本地 Whisper(离线);TTS 支持 OpenAI、ElevenLabs、Kokoro(本地),可根据隐私需求与成本灵活选择
2. 实时性能优化:Deepgram 流式识别、WebSocket 长连接、自动重连机制,端到端延迟控制在可接受范围

3. 工程化完善:TypeScript 全类型覆盖、完善的错误截断处理(防日志泄露)、临时文件自动清理、心跳监测

4. 安全实践规范:API 密钥全部环境变量获取,零硬编码;TLS 1.3 加密传输;符合 GDPR/CCPA 基本要求

潜在缺点与局限性

  • 外部 API 强依赖:核心功能依赖 6 家第三方语音服务商(OpenAI/Deepgram/ElevenLabs/AWS/Microsoft/Wyoming),网络波动或服务变更影响可用性
  • 单频道限制:每个服务器同时仅能接入一个语音频道
  • 录制时长限制:默认 30 秒最大录制时长,长语音需分段处理
  • 本地部署门槛:需 ffmpeg、build-essential 等系统依赖,Windows 环境配置较复杂
  • 无语音数据持久化:虽保护隐私,但也意味着无法离线分析或事后审计对话内容

适合人群

  • Discord 社区运营者:打造 24/7 语音陪伴型 AI 机器人
  • 开发团队:需要快速集成语音能力的 Clawdbot 用户
  • 隐私敏感场景:可选择本地 Whisper + Kokoro 实现完全离线语音交互

常规风险

  • API 密钥泄露风险:虽代码层面无硬编码,但用户配置不当仍可能导致密钥暴露
  • 语音数据跨境传输:使用境外服务商时音频数据需出境,合规敏感场景建议启用本地模式
  • 速率限制影响体验:Deepgram/ElevenLabs 等存在调用限额,高并发场景需配置 fallback 策略
  • 依赖误报干扰:oxlint 被误标为 typosquatting,需人工甄别避免不必要的安全警报

安全解读

概述

discord-voice 是 Clawdbot 生态中的 Discord 语音频道插件,将 Claude AI 的文本对话能力扩展至实时语音交互场景。用户加入 Discord 语音频道后,可直接语音与 AI 对话,获得语音回复,实现类似语音助手的沉浸式体验。

核心用法

部署与配置

插件通过 npm 安装,依赖 ffmpeg 及原生编译工具。配置采用 JSON 结构化设计,支持三种 STT 提供商(Whisper API / Deepgram / 本地 Whisper)和三种 TTS 提供商(OpenAI / ElevenLabs / Kokoro)。关键配置项包括语音活动检测(VAD)灵敏度、打断机制(barge-in)、流式识别开关等。

交互方式

  • Discord 斜杠命令/discord_voice join <channel> 加入频道
  • CLI 工具clawdbot discord_voice join <channelId>
  • Agent 工具调用:自然语言指令如"Join voice channel 1234567890"

技术流程

VAD 检测用户语音 → 音频缓冲 → STT 转录 → 文本送入 Claude 代理 → TTS 合成 → 语音回放。Deepgram 流式模式可将端到端延迟压缩约 1 秒。

显著优点

1. 多厂商灵活架构:STT/TTS 可独立选型,支持纯离线部署(本地 Whisper + Kokoro),满足隐私敏感场景
2. 流式实时优化:Deepgram WebSocket 实现真正的边说边识别,交互流畅度接近商用语音助手

3. 打断机制成熟:barge-in 默认开启,检测到用户说话立即中止播放,对话节奏自然

4. 自动恢复能力:心跳监测 + 指数退避重连,网络波动后自动恢复,鲁棒性较强

5. 细粒度权限控制allowedUsers 白名单机制,支持单频道多用户管理

潜在缺点与局限性

  • 单频道限制:每个 Guild 仅支持一个并发语音会话,无法同时服务多个频道
  • 录制时长上限:默认 30 秒强制截断,长发言会被分割处理,可能打断语境连贯性
  • 延迟天花板:即使流式优化,TTS 合成 + 网络传输仍带来 1-3 秒延迟,对实时性要求极高的游戏指挥场景略显迟缓
  • 依赖链复杂:原生模块(opus/sodium)编译失败是高频坑点,跨平台部署需额外维护
  • 无内置降噪:依赖 Discord 客户端预处理,嘈杂环境下 VAD 可能误触发

适合人群

  • Discord 社群运营者:为服务器添加 AI 语音陪伴、问答或 moderation 功能
  • 远程协作团队:快速部署无需额外客户端的语音 AI 助手
  • 开发者/极客:需要可自托管、可 hack 的语音交互基础设施
  • 隐私优先用户:可选择全本地 STT/TTS 链路,数据不出境

常规风险

  • API 密钥泄露风险:密钥通过环境变量注入,需确保部署环境权限隔离,避免提交至版本控制
  • 依赖供应链风险:部分 npm 包版本滞后,建议启用 dependabot 自动审计
  • 合规注意:语音数据流经第三方云服务(OpenAI/ElevenLabs/Deepgram)时需确认数据处理协议符合 GDPR/CCPA 要求
  • 速率限制:未内置 API 调用限流,高频使用可能触发云服务商配额或产生意外费用

安全认证摘要

CLS-Certify v2.1.0 扫描评分 78/A 级,属标准生产可用级别。无危险函数调用,外部 API 均采用 TLS 1.2+,输入验证与路径遍历防护完善。主要关注项为依赖版本更新建议(RISK-005),无高危 CVE。

Discord Voice 内容

.github文件夹
workflows文件夹
scripts文件夹
src文件夹
手动下载zip · 165.0 kB
ci.ymltext/plain
请选择文件