使用说明

阿里云语音识别 (Aliyun ASR) 是一个专门为 OpenClaw 设计的轻量级语音识别技能，专注于单一任务：将语音消息转换为文本。该技能采用纯 ASR 架构，仅执行语音到文本的识别，不生成任何语音回复，确保系统响应简洁高效。

精准专注：剥离语音合成功能，避免不必要的资源消耗和交互复杂度，专注于识别准确性。

多通道兼容：原生支持飞书 (Feishu)、Telegram、WhatsApp 等所有 OpenClaw 支持的语音消息通道，实现无缝集成。

自动化流程：用户发送语音后自动识别，识别文本直接作为用户消息传递给 AI，AI 以纯文本回复，形成完整的文本交互闭环。

安全合规：采用 RAM 子账号最小权限原则，敏感配置完全分离；支持多种音频格式（MP3、WAV、OGG、FLAC、AMR、OPUS）；语音数据不本地存储。

依赖云服务：必须开通阿里云智能语音交互 (NLS) 服务，存在网络延迟和云服务可用性依赖。

地域限制：默认 API 区域为 cn-shanghai，跨区域使用可能影响延迟。

配置门槛：需手动创建 RAM 用户、分配权限、管理 AccessKey，对非技术用户有一定操作复杂度。

无离线能力：完全依赖阿里云在线 API，无本地识别能力。

密钥泄露风险：AccessKey ID/Secret 若配置不当可能被窃取，需严格设置文件权限（chmod 600）。

成本不可控：按调用量计费，高频使用场景需关注阿里云 NLS 服务账单。

数据合规：语音内容需上传至阿里云进行处理，涉及敏感内容的场景需评估数据出境及隐私合规要求。

Aliyun Asr 内容

手动下载zip · 5.5 kB

__init__.pytext/plain

请选择文件