speech-to-text

🎙️ 企业级音频转录与字幕生成工具

基于 inference.sh Whisper 模型,提供高精度语音转文字服务,支持多语言翻译与时间戳,快速生成会议记录与字幕。

收藏
6.9k
安装
1.9k
版本
v0.1.5
CLS 安全性认证2026-05-04
点击查看完整报告 >

使用说明

该技能通过封装 inference.sh CLI 工具,为用户提供基于 OpenAI Whisper 模型的企业级语音转文字解决方案。核心用法极其简洁:用户只需通过 infsh app run 命令传入音频 URL,即可调用 Fast Whisper Large V3(快速版)或 Whisper V3 Large(高精度版)模型完成转录。支持基础转录、带时间戳分段、99种语言自动识别以及非英语音频到英语的翻译功能,并可与视频音频提取、字幕生成等工具链集成,实现从视频到字幕的完整工作流。

显著优点包括:首先,背靠 inference.sh 成熟的 AI 推理平台,模型性能稳定可靠;其次,提供双模型策略,用户可在速度与精度间灵活选择;再者,原生支持时间戳输出与翻译功能,满足字幕制作与跨国会议需求;最后,与视频处理技能无缝衔接,支持从视频提取音频到生成字幕的自动化流程。

潜在缺点与局限性不容忽视:该技能本质上为文档型封装,完全依赖外部 infsh CLI 工具,若 inference.sh 服务中断或 CLI 工具变更,功能将失效;所有音频数据需上传至第三方云端处理,对敏感内容存在隐私风险;作为纯文档实现,缺乏本地缓存或离线能力;且当前由个人开发者维护(T3来源),长期维护稳定性存疑。

适合目标群体包括:需要快速生成会议纪要的企业行政人员、制作播客与视频字幕的内容创作者、处理采访录音的记者与研究人员,以及需要音频内容无障碍化的 accessibility 从业者。

使用风险主要涉及:数据隐私方面,音频文件需上传至 inference.sh 服务器,敏感商业或私人内容存在泄露风险;性能依赖网络连接质量与第三方服务稳定性;此外,示例代码中包含 curl 下载脚本,用户需自行验证 https://cli.inference.sh 的可信度,避免供应链攻击。

安全解读

核心用法

本Skill提供通过inference.sh CLI调用Whisper模型的语音转文本服务。主要功能包括:

  • 基础转录:将音频/视频转换为纯文本
  • 时间戳标记:生成带时间码的分段文本
  • 多语言翻译:自动识别语言并支持翻译为英文
  • 视频处理链:提取音频→转录→生成字幕的完整工作流

快速上手

# 安装CLI并登录
curl -fsSL https://cli.inference.sh | sh && infsh login

# 基础转录
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://audio.mp3"}'

模型选择

| 模型 | 特点 | 适用场景 |
|------|------|---------|
| Fast Whisper V3 (`infsh/fast-whisper-large-v3`) | 速度快 | 实时性要求高的会议、播客 |
| Whisper V3 Large (`infsh/whisper-v3-large`) | 精度最高 | 需要准确字幕、专业转录 |

显著优点

1. 99+语言支持:覆盖全球主流语言及方言,自动检测语言
2. 零基础设施:无需自建GPU服务器,按调用付费

3. 生态整合:与inference.sh平台150+ AI应用无缝衔接,支持视频字幕、AI对口型等下游任务

4. 输出结构化:JSON格式包含完整文本、分段时间戳、检测语言,便于程序化使用

5. 隐私合规:音频URL由用户自行托管,平台仅处理推理请求,符合GDPR/CCPA

潜在缺点与局限性

  • 网络依赖:必须联网调用inference.sh API,无法离线使用
  • curl\|bash安装风险:官方推荐安装方式存在动态代码执行风险(已通过安全审计,属可控范围)
  • 成本敏感:长音频高频调用可能产生显著费用
  • 无实时流式:当前为批处理模式,不适合实时字幕场景
  • 音频质量敏感:嘈杂环境、口音重的音频准确率下降明显

适合人群

  • 内容创作者:播客主、视频博主快速生成字幕稿
  • 企业用户:会议记录自动化、访谈整理
  • 开发者:构建语音搜索、内容分析等AI应用
  • 无障碍需求:为听力障碍者提供音频内容文字版

常规风险

  • API可用性:依赖inference.sh平台服务稳定性
  • 数据隐私:音频URL需确保来源可信,避免敏感录音泄露
  • 转录误差:专业术语、人名、数字可能出现错误,关键内容需人工校对

speech-to-text 内容

手动下载zip · 1.8 kB
SKILL.mdtext/markdown
请选择文件