核心功能与用法
aliyun-asr 是专为 OpenClaw 设计的阿里云语音识别技能,核心定位是纯 ASR(语音转文本),明确不包含 TTS(语音合成)能力。用户通过飞书、Telegram、WhatsApp 等通道发送语音消息后,系统自动调用阿里云智能语音交互(NLS)服务识别内容,并将文本作为用户消息传递给 AI,AI 仅以纯文本回复。
配置流程
1. 开通阿里云智能语音交互服务,创建应用获取 AppKey
2. 在 RAM 控制台创建子用户,分配 AliyunNLSFullAccess 权限
3. 将 AccessKey ID/Secret 及 AppKey 写入 /root/.openclaw/aliyun-asr-config.json
4. 设置文件权限 chmod 600 保障密钥安全
显著优点
- 官方服务背书:基于阿里云 NLS,中文语音识别准确率高,支持多方言与领域模型
- 多格式兼容:支持 MP3、WAV、OGG、FLAC、AMR、OPUS 等主流音频格式
- 架构解耦:只转写不合成,避免语音合成带来的延迟与成本,适合纯文本交互场景
- 权限最小化:强制使用 RAM 子账号,主账号密钥不暴露
- 无本地存储:语音流直传阿里云,不落地磁盘
潜在缺点与局限性
- 厂商锁定:深度绑定阿里云,无法无缝切换至其他云厂商或开源模型(如 Whisper)
- 网络依赖:必须保持与阿里云 NLS 服务的连通性,离线或内网环境无法使用
- 成本敏感:阿里云 NLS 按调用时长计费,高频场景需关注账单
- 中文为主:虽支持部分外语,但英文及小语种识别效果弱于专用多语言模型
- 区域限制:默认
cn-shanghai,海外部署时延迟可能增加
适合人群
- 已使用阿里云生态的 OpenClaw 用户
- 需要高准确率中文语音识别且无需语音回复的场景(客服工单、会议纪要先转写)
- 对数据合规有要求,希望语音数据不出境的企业用户
常规风险
- 密钥泄露风险:JSON 配置文件若权限设置不当(非 600),可能导致 AccessKey 被读取
- RAM 权限过宽:当前推荐
AliyunNLSFullAccess略宽,可进一步细化为仅nls:SendRequest - 中间人攻击:依赖 TLS 保障传输,需确保 Python
requests及系统 CA 证书及时更新 - 日志残留:需确认 OpenClaw 框架本身不打印或持久化识别后的敏感语音内容