Parakeet Stt

🎙️ 极速本地语音转文字

audio-processing榜 #6

本地极速语音识别,基于NVIDIA Parakeet TDT 0.6B v3模型,30倍实时速度,支持25种语言自动检测,OpenAI API兼容。

收藏
8.6k
安装
2.4k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Parakeet TDT是一款专为本地部署优化的语音识别服务,基于NVIDIA开源的Parakeet TDT 0.6B v3模型,通过ONNX Runtime在CPU上运行。它提供与OpenAI Whisper API完全兼容的接口,支持textjsonverbose_jsonsrtvtt等多种输出格式,可通过curl命令行、Python SDK或直接访问Web界面上传音频文件进行转录。

显著优点

  • 极致速度:声称30倍于实时音频的速度,远快于原始Whisper模型
  • 本地隐私:数据不上传云端,适合敏感内容处理
  • 多语言支持:覆盖25种欧洲主要语言,自动检测无需手动指定
  • 即开即用:Docker容器化部署,提供Web拖拽界面与完整API文档
  • 格式灵活:原生支持字幕文件输出(SRT/VTT),适合视频后期制作

潜在缺点与局限性

  • 硬件依赖:ONNX CPU优化虽快,但长音频仍需充足内存
  • 语言局限:亚洲语言(中日韩)未在支持列表,覆盖范围偏欧洲
  • 模型规模:0.6B参数属于轻量级,复杂专业术语或口音场景准确率可能不及大型云端模型
  • 维护风险:GitHub仓库归属个人开发者(groxaxo),长期更新与稳定性存疑
  • 无GPU加速:当前仅提供CPU版本,GPU潜力未释放

适合人群

播客制作者、视频创作者、隐私敏感型企业、需要离线工作的记者与研究人员,以及欧洲多语言内容处理团队。

常规风险

本地服务虽规避云端泄露风险,但需注意Docker容器权限配置、音频文件存储路径的访问控制,以及模型权重的来源可信性。

Parakeet Stt 内容

手动下载zip · 1.5 kB
SKILL.mdtext/markdown
请选择文件