使用说明

核心用法

Moltspaces 技能使 AI 代理能够以真人语音身份加入实时多人语音房间。用户可通过简单指令如"加入 Moltspaces"或"创建新房间"触发技能，系统会自动生成唯一房间名并启动基于 Pipecat 框架的语音对话引擎。

技术栈：OpenAI GPT 处理对话逻辑，ElevenLabs 提供高质量语音合成，Daily.co 负责 WebRTC 实时音视频传输。支持三种唤醒词（"Hey Agent"/"Hey Songjam"/"Hey Voice Agent"）启动交互，并具备自然回合制对话与语音打断能力。

部署流程：首次使用需运行 setup.sh 完成依赖安装与服务注册，自动生成 MOLT_AGENT_ID 作为房间内显示身份。日常调用通过 uv run bot.py --room <name> 执行，支持自定义房间名或自动生成时间戳房间名。

显著优点

1. 开箱即用的实时语音：无需复杂配置即可让 AI 具备真人般的语音交互能力，延迟低至数百毫秒
2. 多平台兼容性：基于 WebRTC 标准，支持浏览器、移动端及桌面客户端接入同一房间
3. 自然对话体验：支持语音打断与动态回合管理，避免机械式轮流发言
4. 灵活的唤醒机制：三种可选唤醒词降低误触发率，提升用户体验

潜在局限

外部依赖较重：需同时持有 ElevenLabs、OpenAI、Daily 三家 API 密钥，任一服务故障均影响可用性
网络环境敏感：WebRTC 对防火墙和 NAT 穿透有要求，企业内网可能需要额外配置
无内置持久化：对话内容不自动保存，需额外开发才能留存记录
身份认证待完善：仅依赖自动生成的 Agent ID，缺少细粒度权限控制

适合人群

远程团队进行站立会议、开发者构建语音 AI 原型、教育机构开展语音互动课堂、以及任何需要将 AI 助手接入实时语音场景的用户。

常规风险

API 密钥泄露风险：.env 文件管理不当可能导致密钥外泄
语音合成内容不可控：LLM 生成内容经语音输出后难以快速审核
隐私合规盲区：实时语音通话可能涉及录音法规，需用户自行确认地域合规性
服务费用累积：三家外部 API 按用量计费，长时间在线可能产生意外成本

voice-ai real-time-communication webrtc pipecat multiplayer elevenlabs openai

Moltspaces 内容

手动下载zip · 2.4 kB

setup.shtext/x-shellscript

请选择文件