使用说明

核心用法

Speech is Cheap (SIC) 是一款专为高吞吐量自动化场景设计的 ASR（自动语音识别）服务。用户通过 CLI 工具 openclaw run asr 执行转录任务，支持 URL 直读与本地文件上传两种模式。API 认证通过 SIC_API_KEY 环境变量完成，无需复杂配置。

基础命令结构：

openclaw run asr transcribe --url <音频地址> 或 --file <本地路径> 启动转录
支持 --speakers（说话人分离）、--words（词级时间戳）、--labels（音频标签）、--private（隐私模式不存储数据）等丰富选项
输出格式可选 JSON、SRT、VTT 等
openclaw run asr status <job-id> 查询任务进度

显著优点

1. 极致性价比：0.06-0.12 美元/小时的定价，较 Deepgram、OpenAI 等主流服务低 2-15 倍，对高频调用场景成本优势巨大
2. 速度惊人：100 分钟音频约 1 分钟完成转录，满足实时性要求
3. 多语言能力：支持 100 种语言并具备自动检测功能，全球化部署友好
4. Agent 原生设计：JSON 默认输出、CLI 接口、webhook 回调，专为自动化流水线打造

潜在缺点与局限性

品牌知名度低："Speech is Cheap" 为新入局者，长期稳定性与技术支持能力待验证
文档简略：安全报告为系统占位文本，未披露数据加密、合规认证（如 SOC2、GDPR）等细节
私有化部署缺失：仅提供 SaaS 模式，对数据敏感型企业可能存在顾虑
生态系统薄弱：与 Deepgram、AWS Transcribe 等相比，第三方集成与社区资源有限

适合人群

初创公司与开发者：预算敏感、需快速验证语音功能
内容创作者与播客：批量转录长音频
AI Agent 开发者：构建语音驱动的自动化工作流
多语言场景用户：需覆盖小众语种的全球化产品

常规风险

1. 数据隐私：--private 模式虽声称不存储，但无独立审计背书，敏感内容仍建议预评估
2. 服务连续性：低价策略可持续性不明，存在调价或服务中断风险
3. API 密钥管理：环境变量方式简便但需避免泄露，共享环境（如 CI/CD）需额外防护
4. 输出质量波动：超低价是否伴随准确率妥协，建议与主流服务对比测试后投入生产

asr speech-to-text transcription multilingual api cli audio-processing automation low-cost

Speech is Cheap Transcribe 内容

scripts文件夹

手动下载zip · 4.1 kB

asr.shtext/x-shellscript

请选择文件