使用说明

核心用法

阿里云ASR技能是专为OpenClaw设计的轻量级语音识别解决方案，专注于单一核心功能：将语音消息转换为文本。用户只需完成阿里云NLS服务的开通与配置，即可在支持的通道（飞书、Telegram、WhatsApp等）中自动触发语音识别——用户发送语音后，系统自动调用阿里云API完成转写，并将识别结果作为纯文本消息传递给AI处理。

配置流程

1. 开通阿里云智能语音交互(NLS)服务
2. 创建RAM子账号并授予AliyunNLSFullAccess权限
3. 在NLS控制台创建应用获取AppKey
4. 创建JSON配置文件存储密钥信息（建议设置600权限）

显著优点

企业级识别准确率：依托阿里云NLS成熟的语音识别引擎，中文场景识别效果优异
真正的纯ASR设计：仅做语音→文本转换，不强制绑定语音合成功能，避免"语音回复轰炸"
多格式支持：原生支持MP3、WAV、OGG、FLAC、AMR、OPUS等常见音频格式
架构简洁：自动集成模式无需用户干预，语音消息无缝转为文本会话流
合规开发：密钥与代码分离、最小权限原则、无本地数据存储

潜在缺点与局限性

云端依赖：必须联网调用阿里云API，无法离线使用
成本因素：阿里云NLS按调用量计费，高频使用产生持续费用
地域限制：默认cn-shanghai节点，海外用户可能存在延迟
配置门槛：需要阿里云账号、RAM权限管理等云产品操作经验
隐私顾虑：语音数据需上传至阿里云处理，对敏感场景需评估合规性

适合人群

企业飞书/钉钉用户，需要将语音消息批量转为可检索文本
中文语音交互场景为主的中文用户群体
已有阿里云技术栈、熟悉云产品配置的技术团队
追求识别准确率、可接受云端API成本的场景

常规风险

| 风险类型 | 等级 | 说明 |

|---------|------|------|

| 密钥泄露 | 中 | 配置文件明文存储AK/SK，需严格设置文件权限 |

| 服务可用性 | 低 | 依赖阿里云NLS服务SLA，存在单点故障可能 |

| 数据出境 | 中 | 语音数据上传至阿里云国内节点，需关注合规要求 |

| 费用失控 | 低 | 按量计费模式下需关注调用量监控 |

安全解读

核心功能

阿里云语音识别技能（aliyun-asr）是一款专为OpenClaw生态设计的纯ASR工具，功能定位单一明确：将语音消息转换为文本，不集成语音合成功能。支持飞书、Telegram、WhatsApp等主流IM平台的语音消息自动识别。

显著优点

架构简洁：140行代码、7个文件，职责清晰，仅依赖标准库+requests
安全设计：无硬编码密钥，配置外置，最小权限原则，符合GDPR数据最小化
多格式支持：MP3/WAV/OGG/FLAC/AMR/OPUS，通过ffmpeg自动转换
传输安全：HTTPS加密通信，仅连接阿里云官方NLS服务
自动集成：语音消息自动识别，识别结果作为文本消息流入AI对话

潜在局限

云依赖：必须开通阿里云智能语音交互服务，需配置AccessKey
部署门槛：配置文件需放置于/root/.openclaw/路径，可能需要root权限
无TTS能力：纯ASR设计，如需语音回复需额外集成其他技能
个人维护：T3来源（个人开发者），长期维护稳定性待观察
路径硬编码：配置路径不支持环境变量覆盖，部署灵活性受限

适合人群

已有阿里云账号、熟悉云产品配置的技术用户
需要在飞书/IM机器人场景实现语音输入的开发者
追求功能单一、避免复杂TTS/ASR全栈集成的极简主义者
注重数据安全合规、希望敏感信息本地隔离的企业用户

常规风险

低风险-RISK-001：ffmpeg子进程调用，虽参数受控但建议加强路径验证
低风险-RISK-002：配置路径硬编码，建议支持环境变量覆盖
信息级-RISK-003：依赖requests库，需确保版本安全

综合评分78/100（A级），安全基线达标，适合生产环境使用，但建议按报告建议增强路径校验与配置灵活性。

speech-recognition aliyun asr feishu voice-to-text enterprise cloud-api

Aliyun Asr 内容

手动下载zip · 5.5 kB

__init__.pytext/plain

请选择文件