核心用法
SuperCall 是一款面向 OpenClaw 平台的独立语音通话技能,通过整合 OpenAI Realtime API 与 Twilio 语音服务,实现 AI 驱动的自主电话呼叫。用户可通过 persona_call 动作创建定制化通话任务:定义 AI 角色身份(persona)、通话目标(goal)及开场白(openingLine),系统将自动拨号并由 GPT-4o 实时处理双向语音对话,延迟控制在 1 秒以内。配套提供呼叫状态查询(get_status)、强制结束(end_call)及活动通话列表(list_calls)等管理功能,形成完整的通话生命周期管理。
部署时需完成三步配置:安装 npm 插件 @xonder/supercall、启用 hooks 机制并生成安全令牌用于回调认证、在 OpenClaw 配置中指定 Twilio 账户凭证与 OpenAI API 密钥。支持 ngrok 或 Tailscale 隧道方案解决 Webhook 穿透问题,并提供 mock 提供商用于离线测试。
显著优点
架构独立性是该技能的核心优势——与 OpenClaw 内置的 voice_call 插件完全解耦,通话对象无法接触网关代理,显著缩减攻击面。技术实现上采用 WebSocket 双向音频流,结合 OpenAI 原生实时语音能力,实现接近真人的对话体验。配置层面提供细粒度控制:VAD 静音检测阈值、最大并发数(默认 1)、通话时长上限(默认 300 秒)均可调节,兼顾灵活性与资源保护。
安全设计较为周全:Zod 与 TypeBox 双重 schema 验证、E.164 电话号码格式强制校验、Twilio Webhook HMAC-SHA1 签名验证配合 crypto.timingSafeEqual 时序安全比较,有效防御伪造攻击。AI 层面植入 CHARACTER LOCK 机制,禁止 AI 透露自身身份或服从来电者指令,降低社交工程风险。
潜在缺点与局限性
基础设施依赖较重:生产环境需同时维护 Twilio 账户、OpenAI API 额度、隧道服务(ngrok 付费域名或 Tailscale)三项外部服务,任一环节故障将导致通话中断。免费 ngrok 用户面临安全降级——兼容模式允许跳过签名验证,存在 Webhook 伪造隐患。
AI 固有缺陷不可忽视:提示注入攻击可尝试突破角色锁定,使 AI 脱离预设脚本;幻觉问题可能导致 AI 作出未经核实的承诺或陈述。尽管代码层面有防护,但生成式 AI 的非确定性本质决定了风险无法根除。此外,当前仅支持英语等 OpenAI Realtime API 覆盖语种,多语言场景受限。
运维可见性有限:通话记录以 JSONL 格式本地持久化,缺乏内置的分析仪表盘或实时告警机制,大规模部署时需自行对接日志系统。
适合的目标群体
- 中小企业运营团队:需自动化处理预约确认、订单核实、服务提醒等高频外呼场景,替代人工坐席降低人力成本
- 开发者与 DevOps 工程师:构建集成语音能力的 AI 工作流,如智能客服、语音通知系统、IoT 设备语音交互
- 产品原型验证团队:利用 mock 提供商快速测试语音交互逻辑,无需真实电话费用即可迭代对话设计
- 合规要求宽松的内部工具场景:如企业内部会议提醒、员工通知播报,规避公共电话营销法规复杂性
使用风险
配置泄露风险:Twilio 与 OpenAI 密钥若写入配置文件而非环境变量,存在误提交至版本控制的历史隐患。合规法律风险:自动化外呼需遵守 TCPA(美国)、PECR(英国)等反骚扰法规,未获明确同意的营销电话可能面临诉讼。成本失控风险:OpenAI Realtime API 按音频分钟计费,Twilio 按通话时长收费,高频并发场景下费用累积迅速。服务可用性风险:OpenAI 或 Twilio 服务中断将直接导致技能失效,需设计降级方案(如转人工队列)。AI 行为不可预测风险:极端情况下 AI 可能生成不当内容,建议保留人工复核机制并配置通话录音审计。