核心用法
speech-to-text 是一款通过 inference.sh CLI 调用 Whisper 模型的语音转文字工具,提供两条命令行路径:
1. 快速安装:curl -fsSL https://cli.inference.sh | sh && infsh login,脚本仅检测系统架构、下载匹配二进制并校验SHA-256,无需提权
2. 模型调用:
- 基础转写:
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "URL"}' - 带时间戳:添加
"timestamps": true - 翻译为英文:指定
"task": "translate" - 视频处理:先通过
infsh/video-audio-extractor提取音频再转写
输出为结构化JSON,包含完整文本、分段时间戳(可选)及自动检测的语言标识。
显著优点
- 双模型策略:Fast Whisper V3 平衡速度,Whisper V3 Large 追求精度
- 多语言能力:官方宣称支持99+语言,覆盖主流语系
- 工作流整合:与
caption-videos、ai-avatar-video等技能形成视频字幕完整 pipeline - CLI原生设计:Unix哲学,管道友好,易于脚本化批量处理
- 零本地算力:纯云端推理,终端设备仅需网络连接
潜在局限
- 网络依赖:音频文件需上传至可访问URL,隐私敏感场景受限
- 成本不透明:inference.sh采用用量计费,但未公开具体定价
- 无实时流式:仅支持录制文件批处理,无法直播实时字幕
- 中文场景:Whisper对中文专有名词、口音识别存在已知误差
- 供应商锁定:CLI与模型生态深度绑定inference.sh平台
适合人群
内容创作者(播客/视频制作)、远程协作团队、研究人员、无障碍服务开发者,以及需要将非结构化音频转化为可搜索文本的知识工作者。
常规风险
1. 数据隐私:音频上传至第三方云推理节点,敏感会议/医疗/法律内容需谨慎评估
2. 转写准确性:说话人重叠、背景噪音、专业术语场景需人工复核
3. 服务连续性:单一供应商架构,平台变更可能影响可用性
4. URL持久性:输入音频需保持可访问直至处理完成