Speech To Text

🎙️ AI 语音转文字,一键生成字幕

audio榜 #7

基于 OpenAI Whisper 模型的云端语音转文字服务,支持 99+ 语言识别、时间戳标注与翻译,适合会议记录、字幕生成等场景

收藏
11.6k
安装
2.8k
版本
0.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Speech-to-Text 通过 inference.sh CLI 调用 Whisper 系列模型,将音频/视频转换为文本。核心工作流为:安装 CLI → 登录 → 指定模型运行。支持直接 URL 输入或本地文件处理,输出包含完整文本、分段时间戳及语言检测信息。

主要模型

  • Fast Whisper Large V3 (infsh/fast-whisper-large-v3):速度优先,适合实时性要求高的场景
  • Whisper V3 Large (infsh/whisper-v3-large):精度优先,适合专业转录需求

关键参数audio_url(音频地址)、timestamps(时间戳开关)、task: "translate"(英译模式)。支持从视频提取音频后转录的链式工作流。

显著优点

1. 多语言覆盖:99+ 语言自动识别,无需预先指定语种
2. 开箱即用:CLI 工具链成熟,curl 一键安装,JSON 输入输出便于集成

3. 场景闭环:原生支持字幕生成工作流(转录→视频压制),与平台内视频工具无缝衔接

4. 灵活部署:云端推理免除本地 GPU 依赖,按需调用降低成本

局限性与风险

  • 隐私合规:音频上传至 inference.sh 云端处理,敏感会议/医疗录音需评估数据出境与留存政策
  • 准确率边界:口音、专业术语、多人重叠对话识别准确率下降,需人工校对
  • 依赖外部服务:API 可用性与定价策略受平台控制,存在供应商锁定风险
  • 网络依赖:大文件上传受带宽限制,离线场景无法使用

适合人群

内容创作者(播客/YouTube 字幕)、企业行政(会议纪要)、研究人员(访谈转录)、开发者(构建语音应用原型)。不适合高保密场景或需要 99%+ 准确率且无人工复核的关键业务。

安全提示

使用前建议阅读 inference.sh 隐私政策,确认音频数据处理方式;对敏感内容优先选择本地 Whisper 部署方案。

Speech To Text 内容

暂无文件树

手动下载zip · 1.7 kB
contentapplication/octet-stream
请选择文件