Speech is Cheap Transcribe

🎙️ 极速低价语音转文字,100语言支持

超高性价比的语音转文字服务,价格仅为同类产品的2-15倍低,支持100种语言,100分钟音频1分钟完成转录。

收藏
10.7k
安装
2.8k
版本
1.2.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Speech is Cheap (SIC) 是一个专为自动化管道设计的语音转文字技能,通过 CLI 工具 asr.sh 提供快速、廉价的转录服务。支持两种主要输入方式:远程 URL 直接转录(无需下载)和本地文件自动上传处理。核心命令结构简洁:./skills/asr/scripts/asr.sh transcribe --url <音频地址>--file <本地路径>

功能层面覆盖完整 ASR 需求:说话人分离(--speakers)、词级时间戳(--words)、音频标签分类(音乐/噪音等,--labels)、实时流式输出(--stream)。输出格式灵活,支持 JSON(默认)、SRT、VTT 等字幕格式。隐私模式(--private)可确保音频和转录结果不被存储。高级场景支持 webhook 回调和自定义置信度阈值。

显著优点

1. 极致成本优势:每小时 $0.06-$0.12 的定价,相较 Deepgram 或 OpenAI Whisper API 实现 2-15 倍成本削减,适合高频次、大批量转录场景。
2. 速度突出:100 分钟音频约 1 分钟完成处理,满足实时性要求较高的流水线需求。

3. 多语言原生支持:100 种语言自动检测,无需预先指定语言代码。

4. Agent 原生设计:JSON 默认输出、清晰的错误提示、环境变量配置,无缝嵌入自动化工作流。

潜在缺点与局限性

1. 新兴服务商风险:对比 Deepgram/Google Cloud Speech 等成熟厂商,SIC 的长期运营稳定性、SLA 保障未经大规模生产验证。
2. 功能深度待观察:说话人分离准确率、专业术语识别、口音适应性等关键 ASR 质量指标未在文档中披露 benchmark。

3. 地理与合规存疑upload.speechischeap.com 的服务器位置、GDPR/数据主权合规性未明确说明,金融/医疗等敏感场景需谨慎评估。

4. 依赖单一外部服务:无本地模型 fallback,网络中断或服务宕机将直接阻断转录能力。

适合人群

  • 需要批量处理播客、会议记录、视频字幕的内容创作者与媒体团队
  • 构建语音 Agent 管道的开发者,追求成本优先的 MVP 阶段项目
  • 多语言内容平台的自动化工作流集成

常规风险

  • API 密钥泄露SIC_API_KEY 以明文环境变量存储,共享环境或 CI 日志中需额外注意机密管理。
  • 数据隐私:除非显式启用 --private,音频文件可能被服务端保留用于模型优化,敏感内容建议始终添加隐私标志。
  • 供应商锁定:转录格式虽标准,但高级功能(如特定 diarization 算法)迁移至其他 ASR 服务可能需要重新调优。

Speech is Cheap Transcribe 内容

scripts文件夹
手动下载zip · 4.2 kB
asr.shtext/x-shellscript
请选择文件