Phone Voice Integration

📞 电话直连 AI 助手,随时语音操控

通过 Twilio 与 ElevenLabs Agents 为 OpenClaw 添加电话呼叫功能,支持来电认证、语音 PIN、成本追踪与记忆注入,实现可远程语音操控的个人 AI 助手。

收藏
11.3k
安装
2.8k
版本
2.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Phone Voice Integration 是一套完整的电话语音接入方案,允许用户通过真实电话号码呼叫 AI 助手。架构上采用 Twilio → ElevenLabs Agent → 自建 Bridge → Anthropic Claude 的链路,Bridge 作为 FastAPI 服务器负责协议转换、记忆注入和成本追踪。

部署流程:
1. 搭建 Bridge 服务器(接受 OpenAI 格式请求,转发至 Claude)

2. 配置 Cloudflare Tunnel 或 ngrok 暴露本地服务

3. 在 ElevenLabs 创建 Agent 并指向 Bridge URL

4. 绑定 Twilio 电话号码完成接入

关键特性:

  • 来电身份认证:通过 contacts.json 白名单识别熟人,未知号码进入接待员模式
  • 语音 PIN 验证:敏感操作前要求说出预设口令
  • 记忆注入:自动加载 MEMORY.md、USER.md 及历史通话记录,实现跨会话 continuity
  • 成本透明化:记录 Twilio、ElevenLabs、Anthropic 分项费用至 JSONL
  • 速率限制:每小时可配置调用上限防止滥用

显著优点

| 维度 | 优势 |
|------|------|
| **完整性** | 相比 ElevenLabs 官方基础教程,补充了安全、记忆、成本、持久化隧道等生产级能力 |
| **灵活性** | 自建 Bridge 绕过 OpenClaw 直接调用 Claude,获得完整 prompt 控制权 |
| **经济性可控** | 约 $0.07-0.10/分钟,配合 rate limiting 和 screening 避免账单失控 |
| **隐私友好** | 记忆文件本地存储,无需依赖第三方会话持久化服务 |
| **可扩展** | 支持 outbound 呼叫、日历/天气等实时数据注入、办公时间限制等高级功能 |

潜在缺点与局限性

  • 架构复杂度高:需同时管理 Twilio、ElevenLabs、Cloudflare/ngrok、Anthropic 四个服务商凭证
  • 延迟敏感:语音对话对响应延迟要求高,Bridge 处理+TTS 可能产生可感知停顿
  • 无官方托管:Bridge 需自部署维护,存在单点故障风险
  • PIN 安全性有限:语音 PIN 可被录音回放攻击,仅提供基础防护
  • 成本累积风险:虽然单价低,但长时间通话或高频呼叫仍可能产生可观费用

适合人群

  • 已使用 OpenClaw/Claude 生态,希望扩展语音交互入口的极客用户
  • 需要「随时打电话就能访问个人 AI」的移动场景(开车、户外)
  • 愿意投入技术维护成本以换取完全控制权的开发者
  • 对通话隐私敏感、偏好本地记忆存储的用户

常规风险

| 风险类型 | 说明 | 缓解建议 |
|----------|------|----------|
| **API 密钥泄露** | .env 文件包含多个服务商高权限密钥 | 使用 secrets manager,避免提交至版本控制 |
| **Webhook 暴露攻击** | Bridge 端点公开互联网,可能遭受扫描和滥用 | 强制 `Authorization: Bearer` 验证,配置 IP 白名单 |
| **PIN 重放攻击** | 语音 PIN 被录音后回放 | 结合 caller ID 白名单,高敏感操作改为 app 二次确认 |
| **费用失控** | 恶意或意外高频呼叫 | 严格配置 `RATE_LIMIT_PER_HOUR`,启用 call screening |
| **供应商锁定** | 深度依赖 ElevenLabs TTS 和 Twilio 语音 | 架构层面保留切换至其他 TTS/电话服务商的可能性 |

总体评估

Phone Voice Integration 代表了当前个人 AI 语音接入的「高控制度」方案——以显著的部署复杂度换取功能完整性和数据主权。适合技术能力较强、对语音交互有刚性需求的用户作为 OpenClaw 的能力延伸。

安全解读

核心用法

phone-voice 是一套完整的语音电话集成方案,让用户能通过真实电话号码呼叫 OpenClaw AI 助手。核心架构为:电话 → Twilio → ElevenLabs Agent → 自建 Bridge → Anthropic Claude → OpenClaw 工具。

部署流程三步走:
1. 搭建 Bridge 服务器 —— 使用 FastAPI 构建 OpenAI 兼容的 /v1/chat/completions 端点,负责记忆文件注入(MEMORY.md、USER.md)、调用 Claude API、成本追踪与日志记录

2. 建立持久隧道 —— 推荐 Cloudflare Tunnel 替代 ngrok,获得稳定域名与 TLS 加密

3. 配置 ElevenLabs Agent + Twilio —— 将 Bridge 端点设为 Agent 的自定义 LLM,绑定 Twilio 电话号码即可

典型使用场景:

  • 驾车时语音查询日程、发送消息
  • 家人通过白名单直接通话,陌生人经语音 PIN 验证
  • 跨境低成本通话(约 $0.07-0.10/分钟)

显著优点

安全设计完善:多层防护包括来电号码白名单(contacts.json)、语音 PIN 挑战、每小时通话次数限制、工作时间窗口限制

记忆连续性:自动注入 MEMORY.md 长期记忆、USER.md 用户画像、历史通话记录,实现"认出你"的个性化体验

成本透明可控:每通电话记录详细成本分拆(Twilio 线路费、ElevenLabs TTS、Anthropic 推理),JSONL 格式便于审计分析

生产级基础设施:Cloudflare 隧道提供永久 HTTPS 端点,相比官方教程的临时 ngrok 更适合长期使用

潜在局限

部署复杂度较高:需要同时管理 Twilio、ElevenLabs、Anthropic、Cloudflare 四个外部账户,对非技术用户门槛显著

成本不可小觑:重度使用下每小时约 $4-6,高于纯文本交互;TTS 质量与费用正相关

Bridge 服务器需自运维:技能本身仅提供文档,核心 Bridge 代码需用户自行实现,涉及 Python/FastAPI 开发能力

网络延迟敏感:语音实时性要求端到端延迟 < 500ms,网络波动会显著影响体验

适合人群

  • 技术型用户:熟悉 API 集成、有服务器运维经验,愿意自建基础设施
  • 高频语音需求者:需要双手解放场景(驾驶、运动、烹饪)的 AI 重度用户
  • 隐私敏感用户:希望语音数据不经过第三方 SaaS,自建端点确保数据主权
  • 小团队/家庭:需要共享 AI 助手,通过白名单区分权限层级

常规风险

| 风险类型 | 说明 | 缓解措施 |
|---------|------|---------|
| 成本失控 | ElevenLabs TTS 按字符计费,长对话可能超支 | 启用 rate limiting,设置每小时上限 |
| 桥接服务单点故障 | Bridge 宕机则电话无法接通 | 监控 + 自动重启,考虑多地域部署 |
| PIN 泄露 | 语音 PIN 被旁听或录音盗取 | 定期更换,高敏感操作要求二次验证 |
| API 密钥泄露 | .env 文件权限管理不当 | 使用密钥管理服务,禁止硬编码 |

该技能本身为纯文档型(无可执行代码),安全性评级 S+,但用户自建 Bridge 服务器的安全责任需自行承担。

Phone Voice Integration 内容

手动下载zip · 4.0 kB
SKILL.mdtext/markdown
请选择文件