supercall - AI 自主外呼，秒级语音对话

使用说明

核心用法

SuperCall 是一款面向 OpenClaw 平台的独立语音通话技能，通过整合 OpenAI Realtime API 与 Twilio 语音服务，实现 AI 驱动的自主电话呼叫。用户可通过 persona_call 动作创建定制化通话任务：定义 AI 角色身份（persona）、通话目标（goal）及开场白（openingLine），系统将自动拨号并由 GPT-4o 实时处理双向语音对话，延迟控制在 1 秒以内。配套提供呼叫状态查询（get_status）、强制结束（end_call）及活动通话列表（list_calls）等管理功能，形成完整的通话生命周期管理。

部署时需完成三步配置：安装 npm 插件 @xonder/supercall、启用 hooks 机制并生成安全令牌用于回调认证、在 OpenClaw 配置中指定 Twilio 账户凭证与 OpenAI API 密钥。支持 ngrok 或 Tailscale 隧道方案解决 Webhook 穿透问题，并提供 mock 提供商用于离线测试。

显著优点

架构独立性是该技能的核心优势——与 OpenClaw 内置的 voice_call 插件完全解耦，通话对象无法接触网关代理，显著缩减攻击面。技术实现上采用 WebSocket 双向音频流，结合 OpenAI 原生实时语音能力，实现接近真人的对话体验。配置层面提供细粒度控制：VAD 静音检测阈值、最大并发数（默认 1）、通话时长上限（默认 300 秒）均可调节，兼顾灵活性与资源保护。

安全设计较为周全：Zod 与 TypeBox 双重 schema 验证、E.164 电话号码格式强制校验、Twilio Webhook HMAC-SHA1 签名验证配合 crypto.timingSafeEqual 时序安全比较，有效防御伪造攻击。AI 层面植入 CHARACTER LOCK 机制，禁止 AI 透露自身身份或服从来电者指令，降低社交工程风险。

潜在缺点与局限性

基础设施依赖较重：生产环境需同时维护 Twilio 账户、OpenAI API 额度、隧道服务（ngrok 付费域名或 Tailscale）三项外部服务，任一环节故障将导致通话中断。免费 ngrok 用户面临安全降级——兼容模式允许跳过签名验证，存在 Webhook 伪造隐患。

AI 固有缺陷不可忽视：提示注入攻击可尝试突破角色锁定，使 AI 脱离预设脚本；幻觉问题可能导致 AI 作出未经核实的承诺或陈述。尽管代码层面有防护，但生成式 AI 的非确定性本质决定了风险无法根除。此外，当前仅支持英语等 OpenAI Realtime API 覆盖语种，多语言场景受限。

运维可见性有限：通话记录以 JSONL 格式本地持久化，缺乏内置的分析仪表盘或实时告警机制，大规模部署时需自行对接日志系统。

适合的目标群体

中小企业运营团队：需自动化处理预约确认、订单核实、服务提醒等高频外呼场景，替代人工坐席降低人力成本
开发者与 DevOps 工程师：构建集成语音能力的 AI 工作流，如智能客服、语音通知系统、IoT 设备语音交互
产品原型验证团队：利用 mock 提供商快速测试语音交互逻辑，无需真实电话费用即可迭代对话设计
合规要求宽松的内部工具场景：如企业内部会议提醒、员工通知播报，规避公共电话营销法规复杂性

使用风险

配置泄露风险：Twilio 与 OpenAI 密钥若写入配置文件而非环境变量，存在误提交至版本控制的历史隐患。合规法律风险：自动化外呼需遵守 TCPA（美国）、PECR（英国）等反骚扰法规，未获明确同意的营销电话可能面临诉讼。成本失控风险：OpenAI Realtime API 按音频分钟计费，Twilio 按通话时长收费，高频并发场景下费用累积迅速。服务可用性风险：OpenAI 或 Twilio 服务中断将直接导致技能失效，需设计降级方案（如转人工队列）。AI 行为不可预测风险：极端情况下 AI 可能生成不当内容，建议保留人工复核机制并配置通话录音审计。

automation customer-support api productivity operations content-media

supercall 内容

src文件夹

providers文件夹

twilio文件夹

手动下载zip · 45.0 kB

api.tstext/plain

请选择文件