使用说明

核心用法

Speech-to-Text 通过 inference.sh CLI 调用 Whisper 系列模型，将音频/视频转换为文本。核心工作流为：安装 CLI → 登录 → 指定模型运行。支持直接 URL 输入或本地文件处理，输出包含完整文本、分段时间戳及语言检测信息。

主要模型：

Fast Whisper Large V3 (infsh/fast-whisper-large-v3)：速度优先，适合实时性要求高的场景
Whisper V3 Large (infsh/whisper-v3-large)：精度优先，适合专业转录需求

关键参数：audio_url（音频地址）、timestamps（时间戳开关）、task: "translate"（英译模式）。支持从视频提取音频后转录的链式工作流。

显著优点

1. 多语言覆盖：99+ 语言自动识别，无需预先指定语种
2. 开箱即用：CLI 工具链成熟，curl 一键安装，JSON 输入输出便于集成
3. 场景闭环：原生支持字幕生成工作流（转录→视频压制），与平台内视频工具无缝衔接
4. 灵活部署：云端推理免除本地 GPU 依赖，按需调用降低成本

局限性与风险

隐私合规：音频上传至 inference.sh 云端处理，敏感会议/医疗录音需评估数据出境与留存政策
准确率边界：口音、专业术语、多人重叠对话识别准确率下降，需人工校对
依赖外部服务：API 可用性与定价策略受平台控制，存在供应商锁定风险
网络依赖：大文件上传受带宽限制，离线场景无法使用

适合人群

内容创作者（播客/YouTube 字幕）、企业行政（会议纪要）、研究人员（访谈转录）、开发者（构建语音应用原型）。不适合高保密场景或需要 99%+ 准确率且无人工复核的关键业务。

安全提示

使用前建议阅读 inference.sh 隐私政策，确认音频数据处理方式；对敏感内容优先选择本地 Whisper 部署方案。

speech-recognition whisper transcription subtitles meeting-notes podcast multi-language cli-tool inference-sh

Speech To Text 内容

暂无文件树

手动下载zip · 1.7 kB

contentapplication/octet-stream

请选择文件