Aliyun Asr

🎙️ 语音秒转文字,零回复干扰

语音处理榜 #2

阿里云语音识别轻量级技能,纯语音转文本,支持飞书等多通道,无语音合成功能

收藏
5.1k
安装
2.3k
版本
1.0.7
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能

阿里云语音识别 (Aliyun ASR) 是一个专门为 OpenClaw 设计的轻量级语音识别技能,专注于单一任务:将语音消息转换为文本。该技能采用纯 ASR 架构,仅执行语音到文本的识别,不生成任何语音回复,确保系统响应简洁高效。

显著优点

精准专注:剥离语音合成功能,避免不必要的资源消耗和交互复杂度,专注于识别准确性。

多通道兼容:原生支持飞书 (Feishu)、Telegram、WhatsApp 等所有 OpenClaw 支持的语音消息通道,实现无缝集成。

自动化流程:用户发送语音后自动识别,识别文本直接作为用户消息传递给 AI,AI 以纯文本回复,形成完整的文本交互闭环。

安全合规:采用 RAM 子账号最小权限原则,敏感配置完全分离;支持多种音频格式(MP3、WAV、OGG、FLAC、AMR、OPUS);语音数据不本地存储。

潜在局限

依赖云服务:必须开通阿里云智能语音交互 (NLS) 服务,存在网络延迟和云服务可用性依赖。

地域限制:默认 API 区域为 cn-shanghai,跨区域使用可能影响延迟。

配置门槛:需手动创建 RAM 用户、分配权限、管理 AccessKey,对非技术用户有一定操作复杂度。

无离线能力:完全依赖阿里云在线 API,无本地识别能力。

适合人群

  • 需要在飞书/即时通讯场景中处理语音消息的企业用户
  • 追求简洁架构、拒绝功能臃肿的技术团队
  • 已使用阿里云生态、希望统一云服务管理的组织

常规风险

密钥泄露风险:AccessKey ID/Secret 若配置不当可能被窃取,需严格设置文件权限(chmod 600)。

成本不可控:按调用量计费,高频使用场景需关注阿里云 NLS 服务账单。

数据合规:语音内容需上传至阿里云进行处理,涉及敏感内容的场景需评估数据出境及隐私合规要求。

Aliyun Asr 内容

暂无文件树

手动下载zip · 5.5 kB
contentapplication/octet-stream
请选择文件