使用说明

核心功能与用法

aliyun-asr 是专为 OpenClaw 设计的阿里云语音识别技能，核心定位是纯 ASR（语音转文本），明确不包含 TTS（语音合成）能力。用户通过飞书、Telegram、WhatsApp 等通道发送语音消息后，系统自动调用阿里云智能语音交互（NLS）服务识别内容，并将文本作为用户消息传递给 AI，AI 仅以纯文本回复。

配置流程

1. 开通阿里云智能语音交互服务，创建应用获取 AppKey
2. 在 RAM 控制台创建子用户，分配 AliyunNLSFullAccess 权限
3. 将 AccessKey ID/Secret 及 AppKey 写入 /root/.openclaw/aliyun-asr-config.json
4. 设置文件权限 chmod 600 保障密钥安全

显著优点

官方服务背书：基于阿里云 NLS，中文语音识别准确率高，支持多方言与领域模型
多格式兼容：支持 MP3、WAV、OGG、FLAC、AMR、OPUS 等主流音频格式
架构解耦：只转写不合成，避免语音合成带来的延迟与成本，适合纯文本交互场景
权限最小化：强制使用 RAM 子账号，主账号密钥不暴露
无本地存储：语音流直传阿里云，不落地磁盘

潜在缺点与局限性

厂商锁定：深度绑定阿里云，无法无缝切换至其他云厂商或开源模型（如 Whisper）
网络依赖：必须保持与阿里云 NLS 服务的连通性，离线或内网环境无法使用
成本敏感：阿里云 NLS 按调用时长计费，高频场景需关注账单
中文为主：虽支持部分外语，但英文及小语种识别效果弱于专用多语言模型
区域限制：默认 cn-shanghai，海外部署时延迟可能增加

适合人群

已使用阿里云生态的 OpenClaw 用户
需要高准确率中文语音识别且无需语音回复的场景（客服工单、会议纪要先转写）
对数据合规有要求，希望语音数据不出境的企业用户

常规风险

密钥泄露风险：JSON 配置文件若权限设置不当（非 600），可能导致 AccessKey 被读取
RAM 权限过宽：当前推荐 AliyunNLSFullAccess 略宽，可进一步细化为仅 nls:SendRequest
中间人攻击：依赖 TLS 保障传输，需确保 Python requests 及系统 CA 证书及时更新
日志残留：需确认 OpenClaw 框架本身不打印或持久化识别后的敏感语音内容

安全解读

核心功能与定位

aliyun-asr 是专为 OpenClaw 设计的轻量级阿里云语音识别技能，定位精准：纯语音识别(ASR)，无语音合成(TTS)。它将飞书、Telegram、WhatsApp 等渠道的语音消息自动转换为文本，供 AI 以纯文本形式回复。

显著优点

1. 架构简洁专注

功能单一明确，仅做「语音→文本」转换，避免功能堆砌带来的复杂度
自动集成 OpenClaw 消息流，用户发送语音后无缝转为文本处理
支持 MP3/WAV/OGG/FLAC/AMR/OPUS 等主流格式

2. 安全设计规范

零硬编码密钥：access_key_id/secret/app_key 完全通过独立配置文件管理
最小权限原则：建议使用 RAM 子账号，分配 AliyunNLSFullAccess 权限，避免主账号密钥暴露
文件权限隔离：推荐 chmod 600 配置文件，敏感信息与代码物理分离
无本地数据留存：语音数据直传阿里云处理，不在本地存储

3. 技术实现可靠

依赖精简：仅 Python 标准库 + requests，无冗余依赖
传输加密：通过 HTTPS/TLS 1.2+ 调用阿里云 NLS 官方 API
代码质量：静态分析得分 85，无危险函数(eval/exec/system)或混淆

潜在局限与风险

| 维度 | 说明 |

|------|------|

| **外部依赖** | 必须开通阿里云智能语音交互(NLS)服务，需实名认证与计费绑定 |

| **网络传输** | 语音数据需上传至阿里云处理，存在跨境/云服务商合规考量 |

| **凭证管理** | 配置文件权限设置不当(如未设为 600)可能导致密钥泄露 |

| **来源可信度** | T3 级(个人开发者)，无企业背书，需关注后续维护状态 |

| **隐私合规** | 语音数据出境处理，需用户明确知情同意，GDPR 场景需谨慎 |

适合人群

OpenClaw 用户：已在使用 OpenClaw 框架，需要语音消息处理能力
轻量需求者：仅需语音识别，无需语音合成，追求配置简洁
阿里云生态用户：已有阿里云账号，熟悉 NLS 服务开通流程

常规风险

1. 配置泄露风险：~/.openclaw/aliyun-asr-config.json 若权限设置错误，阿里云凭证可能被同服务器其他用户读取
2. 服务可用性依赖：阿里云 NLS 服务故障或 API 变更将直接影响功能
3. 成本不可控：按调用量计费，高频场景可能产生意外费用
4. 数据主权敏感：语音内容上传至第三方云服务，对合规敏感场景不适用

综合评估

该技能代码质量良好、安全设计规范，适合对功能单一性、配置简洁性有要求的 OpenClaw 用户。建议生产环境使用前：①严格检查配置文件权限 ②开通阿里云操作审计 ③明确告知终端用户语音数据处理流程。

asr aliyun speech-recognition nls voice-to-text cloud-api access-control

Aliyun Asr 内容

手动下载zip · 6.8 kB

__init__.pytext/plain

请选择文件