使用说明

核心用法

Discord Voice 是 Clawdbot 的语音交互插件，实现 Discord 语音频道内的实时 AI 对话。用户加入语音频道后，可通过自然语音与 Claude AI 交流——语音被自动识别转写为文本，经 AI 处理后以合成语音播放回应。

接入方式：

Slash 命令：/discord_voice join <channel> 加入频道
CLI 工具：clawdbot discord_voice join <channelId>
Agent 工具：直接调用 discord_voice 工具执行 join/leave/speak/status 动作

完整语音链路：语音活动检测(VAD) → 音频录制 → 语音转文本(STT) → Claude 处理 → 文本转语音(TTS) → 语音播放。支持 Deepgram 流式 STT（延迟降低约1秒）和智能打断(Barge-in)，对话更自然流畅。

显著优点

1. 多提供商灵活配置：STT 支持 OpenAI Whisper、Deepgram、本地 Whisper（离线）；TTS 支持 OpenAI、ElevenLabs、Kokoro（本地），可根据隐私需求与成本灵活选择
2. 实时性能优化：Deepgram 流式识别、WebSocket 长连接、自动重连机制，端到端延迟控制在可接受范围
3. 工程化完善：TypeScript 全类型覆盖、完善的错误截断处理（防日志泄露）、临时文件自动清理、心跳监测
4. 安全实践规范：API 密钥全部环境变量获取，零硬编码；TLS 1.3 加密传输；符合 GDPR/CCPA 基本要求

潜在缺点与局限性

外部 API 强依赖：核心功能依赖 6 家第三方语音服务商（OpenAI/Deepgram/ElevenLabs/AWS/Microsoft/Wyoming），网络波动或服务变更影响可用性
单频道限制：每个服务器同时仅能接入一个语音频道
录制时长限制：默认 30 秒最大录制时长，长语音需分段处理
本地部署门槛：需 ffmpeg、build-essential 等系统依赖，Windows 环境配置较复杂
无语音数据持久化：虽保护隐私，但也意味着无法离线分析或事后审计对话内容

适合人群

Discord 社区运营者：打造 24/7 语音陪伴型 AI 机器人
开发团队：需要快速集成语音能力的 Clawdbot 用户
隐私敏感场景：可选择本地 Whisper + Kokoro 实现完全离线语音交互

常规风险

API 密钥泄露风险：虽代码层面无硬编码，但用户配置不当仍可能导致密钥暴露
语音数据跨境传输：使用境外服务商时音频数据需出境，合规敏感场景建议启用本地模式
速率限制影响体验：Deepgram/ElevenLabs 等存在调用限额，高并发场景需配置 fallback 策略
依赖误报干扰：oxlint 被误标为 typosquatting，需人工甄别避免不必要的安全警报

安全解读

概述

discord-voice 是 Clawdbot 生态中的 Discord 语音频道插件，将 Claude AI 的文本对话能力扩展至实时语音交互场景。用户加入 Discord 语音频道后，可直接语音与 AI 对话，获得语音回复，实现类似语音助手的沉浸式体验。

核心用法

部署与配置

插件通过 npm 安装，依赖 ffmpeg 及原生编译工具。配置采用 JSON 结构化设计，支持三种 STT 提供商（Whisper API / Deepgram / 本地 Whisper）和三种 TTS 提供商（OpenAI / ElevenLabs / Kokoro）。关键配置项包括语音活动检测（VAD）灵敏度、打断机制（barge-in）、流式识别开关等。

交互方式

Discord 斜杠命令：/discord_voice join <channel> 加入频道
CLI 工具：clawdbot discord_voice join <channelId>
Agent 工具调用：自然语言指令如"Join voice channel 1234567890"

技术流程

VAD 检测用户语音 → 音频缓冲 → STT 转录 → 文本送入 Claude 代理 → TTS 合成 → 语音回放。Deepgram 流式模式可将端到端延迟压缩约 1 秒。

显著优点

1. 多厂商灵活架构：STT/TTS 可独立选型，支持纯离线部署（本地 Whisper + Kokoro），满足隐私敏感场景
2. 流式实时优化：Deepgram WebSocket 实现真正的边说边识别，交互流畅度接近商用语音助手
3. 打断机制成熟：barge-in 默认开启，检测到用户说话立即中止播放，对话节奏自然
4. 自动恢复能力：心跳监测 + 指数退避重连，网络波动后自动恢复，鲁棒性较强
5. 细粒度权限控制：allowedUsers 白名单机制，支持单频道多用户管理

潜在缺点与局限性

单频道限制：每个 Guild 仅支持一个并发语音会话，无法同时服务多个频道
录制时长上限：默认 30 秒强制截断，长发言会被分割处理，可能打断语境连贯性
延迟天花板：即使流式优化，TTS 合成 + 网络传输仍带来 1-3 秒延迟，对实时性要求极高的游戏指挥场景略显迟缓
依赖链复杂：原生模块（opus/sodium）编译失败是高频坑点，跨平台部署需额外维护
无内置降噪：依赖 Discord 客户端预处理，嘈杂环境下 VAD 可能误触发

适合人群

Discord 社群运营者：为服务器添加 AI 语音陪伴、问答或 moderation 功能
远程协作团队：快速部署无需额外客户端的语音 AI 助手
开发者/极客：需要可自托管、可 hack 的语音交互基础设施
隐私优先用户：可选择全本地 STT/TTS 链路，数据不出境

常规风险

API 密钥泄露风险：密钥通过环境变量注入，需确保部署环境权限隔离，避免提交至版本控制
依赖供应链风险：部分 npm 包版本滞后，建议启用 dependabot 自动审计
合规注意：语音数据流经第三方云服务（OpenAI/ElevenLabs/Deepgram）时需确认数据处理协议符合 GDPR/CCPA 要求
速率限制：未内置 API 调用限流，高频使用可能触发云服务商配额或产生意外费用

安全认证摘要

CLS-Certify v2.1.0 扫描评分 78/A 级，属标准生产可用级别。无危险函数调用，外部 API 均采用 TLS 1.2+，输入验证与路径遍历防护完善。主要关注项为依赖版本更新建议（RISK-005），无高危 CVE。

discord voice stt tts real-time websocket multi-provider clawdbot

Discord Voice 内容

.github文件夹

workflows文件夹

scripts文件夹

src文件夹

手动下载zip · 165.0 kB

ci.ymltext/plain

请选择文件