核心用法
Speech-to-Text 通过 inference.sh CLI 调用 Whisper 系列模型,将音频/视频转换为文本。核心工作流为:安装 CLI → 登录 → 指定模型运行。支持直接 URL 输入或本地文件处理,输出包含完整文本、分段时间戳及语言检测信息。
主要模型:
- Fast Whisper Large V3 (
infsh/fast-whisper-large-v3):速度优先,适合实时性要求高的场景 - Whisper V3 Large (
infsh/whisper-v3-large):精度优先,适合专业转录需求
关键参数:audio_url(音频地址)、timestamps(时间戳开关)、task: "translate"(英译模式)。支持从视频提取音频后转录的链式工作流。
显著优点
1. 多语言覆盖:99+ 语言自动识别,无需预先指定语种
2. 开箱即用:CLI 工具链成熟,curl 一键安装,JSON 输入输出便于集成
3. 场景闭环:原生支持字幕生成工作流(转录→视频压制),与平台内视频工具无缝衔接
4. 灵活部署:云端推理免除本地 GPU 依赖,按需调用降低成本
局限性与风险
- 隐私合规:音频上传至 inference.sh 云端处理,敏感会议/医疗录音需评估数据出境与留存政策
- 准确率边界:口音、专业术语、多人重叠对话识别准确率下降,需人工校对
- 依赖外部服务:API 可用性与定价策略受平台控制,存在供应商锁定风险
- 网络依赖:大文件上传受带宽限制,离线场景无法使用
适合人群
内容创作者(播客/YouTube 字幕)、企业行政(会议纪要)、研究人员(访谈转录)、开发者(构建语音应用原型)。不适合高保密场景或需要 99%+ 准确率且无人工复核的关键业务。
安全提示
使用前建议阅读 inference.sh 隐私政策,确认音频数据处理方式;对敏感内容优先选择本地 Whisper 部署方案。