核心用法
Speech is Cheap (SIC) 是一款面向自动化工作流设计的语音转文本服务,通过 openclaw run asr 命令提供快速转录能力。支持两种主要输入方式:URL直链转录(无需下载)和本地文件上传。核心功能包括说话人分离(diarization)、词级时间戳、音频标签分类、多格式输出(JSON/SRT/VTT)及Webhook回调。隐私模式(--private)可确保音频不留存。
显著优点
- 成本颠覆性:$0.06-$0.12/小时,较Deepgram/OpenAI便宜2-15倍
- 极速处理:100分钟音频约1分钟完成,适合高吞吐量场景
- 多语言原生:100种语言自动检测,无需预处理语言设置
- Agent友好:纯JSON输出、环境变量认证、清晰错误指引,便于自动化集成
潜在局限
- 供应商锁定风险:小众服务商,长期稳定性存疑
- 功能深度待验证:对比成熟厂商(如AWS/Google),方言/噪声鲁棒性未披露
- 合规透明度:隐私模式依赖服务商承诺,无第三方审计背书
- 生态成熟度:缺少预训练模型微调、领域自适应等高级功能
适合人群
- 成本敏感的批量转录需求(播客、会议记录、客服质检)
- 构建语音Agent/工作流的开发者
- 多语言内容处理的小型团队
常规风险
- API密钥泄露:需妥善保管
SIC_API_KEY环境变量 - 数据出境:服务商未披露数据中心位置,跨境合规需确认
- 服务中断:新兴服务商SLA保障未知,关键业务建议fallback方案