asr

🎙️ 极致低价的高速语音转文字

Speech is Cheap 官方语音转文字工具,以极致低价($0.06/小时起)和百秒级速度实现100种语言自动转录,专为高吞吐量自动化流水线设计。

收藏
3.9k
安装
1.7k
版本
v1.2.0
CLS 安全性认证2026-05-21
点击查看完整报告 >

使用说明

核心用法

asr skill 是 Speech is Cheap 官方提供的 CLI 封装工具,通过 asr.sh 脚本将音频文件或 URL 提交至云端 API 进行转录。基础用法极为简洁:通过 ./skills/asr/scripts/asr.sh transcribe --url "音频地址" 即可启动任务,支持本地文件自动上传(--file 参数)。高级功能涵盖说话人分离(--speakers)、词级时间戳(--words)、音频标签识别(--labels)、隐私模式(--private)及 webhook 回调等,输出格式可选 JSON、SRT、VTT 等。任务状态可通过 status 子命令实时查询,整个流程专为 Agent 自动化场景优化,返回结构化 JSON 便于管道化处理。

显著优点

颠覆性成本优势是该 skill 最突出的竞争力——每小时 $0.06-$0.12 的定价较 Deepgram、OpenAI 等主流服务商低 2-15 倍,对需要处理海量音频的企业和开发者极具吸引力。极致速度同样亮眼,100 分钟音频约 1 分钟完成转录,满足实时性要求较高的场景。多语言支持覆盖 100 种语言并具备自动检测能力,大幅降低国际化部署门槛。此外,隐私模式--private)允许用户要求服务端不存储任何音频与转录内容,在合规敏感场景中提供额外保障。作为官方原生工具,其与 Speech is Cheap 服务深度整合,API 稳定性与功能迭代均有可靠背书。

潜在缺点与局限性

当前版本存在输入验证缺陷:用户提供的 URL、文件路径、webhook 地址等参数缺乏格式校验,JSON 拼接逻辑存在注入风险(尽管实际利用场景有限)。功能边界方面,该 skill 仅为轻量级 CLI 封装,不具备本地模型推理能力,完全依赖外部 API 可用性,网络中断或服务端故障将直接导致功能失效。生态锁定风险亦需关注——深度绑定 Speech is Cheap 专有服务,迁移至其他 ASR 供应商需重写集成逻辑。此外,bash 脚本架构虽轻量,但跨平台兼容性(尤其是 Windows 环境)弱于 Python/Node 等跨语言方案。

适合的目标群体

该 skill 核心受众为需要大规模音频处理的自动化系统开发者成本敏感型创业团队。典型场景包括:播客/视频平台的批量字幕生成、客服通话记录的自动化归档与分析、多语言会议纪要的实时转写流水线、内容审核中的音频文本化预处理等。对于已采用 ClawHub/OpenClaw Agent 平台的用户,该 skill 提供即插即用的原生集成体验。个人开发者或小型项目亦可受益于其低门槛定价,但需注意 API 密钥的安全管理。

使用风险

依赖项风险:核心依赖系统 curl 工具,若目标环境未安装或版本过旧可能导致功能异常。网络与可用性风险:所有处理均在云端完成,大文件上传受带宽限制,API 服务中断将直接影响业务连续性。数据安全风险:尽管支持 HTTPS 传输与隐私模式,但音频文件仍需上传至第三方服务器,对高度敏感内容(如医疗记录、金融通话)需评估合规要求。密钥管理风险SIC_API_KEY 以环境变量形式配置,若配置不当(如误提交至版本控制)可能导致未授权调用与费用损失。建议配合密钥管理服务(如 HashiCorp Vault、AWS Secrets Manager)使用。

安全解读

核心用法

SIC Skill 是 Speech is Cheap 官方推出的语音识别命令行工具,通过 asr.sh 脚本封装 REST API,支持 URL 直转与本地文件上传两种模式。基础命令 ./skills/asr/scripts/asr.sh transcribe --url "音频地址" 即可完成转录,返回结构化 JSON 结果。高级功能涵盖说话人分离(--speakers)、词级时间戳(--words)、音频标签分类(--labels)、隐私模式(--private)及 webhook 回调,输出格式可选 JSON/SRT/VTT。

显著优点

极致性价比:$0.06-$0.12/小时的定价较 Deepgram、OpenAI 等竞品低 2-15 倍,适合大规模音频处理场景。极速处理:100 分钟音频约 1 分钟完成转录,吞吐量优异。零依赖架构:纯 Bash 实现,仅依赖系统 curl,无 npm/pip 供应链风险。隐私可控--private 模式不存储音频与文本,环境变量管理 API 密钥符合安全最佳实践。多语言与自动化友好:100 语言自动检测,JSON 默认输出便于管道集成。

潜在局限

单点服务依赖:所有处理依赖 speechischeap.com 云端服务,服务商不可用则功能完全中断,敏感数据需上传第三方。文件验证薄弱--file 参数未严格校验路径存在性与可读性,可能传递无效路径至 curl。错误处理待完善:curl 静默模式下缺乏 HTTP 状态码分层处理,网络或认证失败时用户体验不足。配置负担:仅支持环境变量注入,未内置配置文件读取机制。

适合人群

  • 预算敏感的高频语音处理团队(播客批量转写、客服质检、内容审核)
  • 构建语音 Agent 管道的开发者(需自动化、低延迟、易解析的输出)
  • 多语言内容创作者(100 语言覆盖降低多模型维护成本)
  • 非敏感音频处理场景(公开播客、会议录音等可接受云端处理的用例)

常规风险

| 风险类型 | 说明 | 缓释建议 |
|---------|------|---------|
| 服务连续性 | 商业服务商单点故障 | 关键业务保留备用 ASR 方案 |
| 数据主权 | 音频上传至境外云服务 | 敏感内容启用 `--private`,评估隐私政策 |
| 供应链安全 | 虽零依赖,但 curl 本身需保持更新 | 系统级安全补丁管理 |
| 凭证泄露 | API 密钥通过环境变量传递 | 避免硬编码,使用密钥管理服务 |

评估结论

该 skill 在安全性(S 级)与性价比维度表现突出,适合已评估云服务商可信度的自动化场景。本地文件验证与错误处理细节可通过用户侧封装进一步增强。

asr 内容

scripts文件夹
手动下载zip · 4.3 kB
asr.shtext/x-shellscript
请选择文件