Aliyun Asr

🎙️ 阿里云语音转文字,多通道消息识别

ai榜 #11

阿里云官方ASR语音识别技能,纯文本转换无语音合成,支持多平台语音消息识别

收藏
11.4k
安装
2.3k
版本
1.0.3
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能与用法

aliyun-asr 是专为 OpenClaw 设计的阿里云语音识别技能,核心定位是纯 ASR(语音转文本),明确不包含 TTS(语音合成)能力。用户通过飞书、Telegram、WhatsApp 等通道发送语音消息后,系统自动调用阿里云智能语音交互(NLS)服务识别内容,并将文本作为用户消息传递给 AI,AI 仅以纯文本回复。

配置流程

1. 开通阿里云智能语音交互服务,创建应用获取 AppKey
2. 在 RAM 控制台创建子用户,分配 AliyunNLSFullAccess 权限

3. 将 AccessKey ID/Secret 及 AppKey 写入 /root/.openclaw/aliyun-asr-config.json

4. 设置文件权限 chmod 600 保障密钥安全

显著优点

  • 官方服务背书:基于阿里云 NLS,中文语音识别准确率高,支持多方言与领域模型
  • 多格式兼容:支持 MP3、WAV、OGG、FLAC、AMR、OPUS 等主流音频格式
  • 架构解耦:只转写不合成,避免语音合成带来的延迟与成本,适合纯文本交互场景
  • 权限最小化:强制使用 RAM 子账号,主账号密钥不暴露
  • 无本地存储:语音流直传阿里云,不落地磁盘

潜在缺点与局限性

  • 厂商锁定:深度绑定阿里云,无法无缝切换至其他云厂商或开源模型(如 Whisper)
  • 网络依赖:必须保持与阿里云 NLS 服务的连通性,离线或内网环境无法使用
  • 成本敏感:阿里云 NLS 按调用时长计费,高频场景需关注账单
  • 中文为主:虽支持部分外语,但英文及小语种识别效果弱于专用多语言模型
  • 区域限制:默认 cn-shanghai,海外部署时延迟可能增加

适合人群

  • 已使用阿里云生态的 OpenClaw 用户
  • 需要高准确率中文语音识别且无需语音回复的场景(客服工单、会议纪要先转写)
  • 对数据合规有要求,希望语音数据不出境的企业用户

常规风险

  • 密钥泄露风险:JSON 配置文件若权限设置不当(非 600),可能导致 AccessKey 被读取
  • RAM 权限过宽:当前推荐 AliyunNLSFullAccess 略宽,可进一步细化为仅 nls:SendRequest
  • 中间人攻击:依赖 TLS 保障传输,需确保 Python requests 及系统 CA 证书及时更新
  • 日志残留:需确认 OpenClaw 框架本身不打印或持久化识别后的敏感语音内容

Aliyun Asr 内容

暂无文件树

手动下载zip · 6.8 kB
contentapplication/octet-stream
请选择文件