使用说明

核心用法

Parakeet TDT是一款专为本地部署优化的语音识别服务，基于NVIDIA开源的Parakeet TDT 0.6B v3模型，通过ONNX Runtime在CPU上运行。它提供与OpenAI Whisper API完全兼容的接口，支持text、json、verbose_json、srt、vtt等多种输出格式，可通过curl命令行、Python SDK或直接访问Web界面上传音频文件进行转录。

显著优点

极致速度：声称30倍于实时音频的速度，远快于原始Whisper模型
本地隐私：数据不上传云端，适合敏感内容处理
多语言支持：覆盖25种欧洲主要语言，自动检测无需手动指定
即开即用：Docker容器化部署，提供Web拖拽界面与完整API文档
格式灵活：原生支持字幕文件输出（SRT/VTT），适合视频后期制作

潜在缺点与局限性

硬件依赖：ONNX CPU优化虽快，但长音频仍需充足内存
语言局限：亚洲语言（中日韩）未在支持列表，覆盖范围偏欧洲
模型规模：0.6B参数属于轻量级，复杂专业术语或口音场景准确率可能不及大型云端模型
维护风险：GitHub仓库归属个人开发者（groxaxo），长期更新与稳定性存疑
无GPU加速：当前仅提供CPU版本，GPU潜力未释放

适合人群

播客制作者、视频创作者、隐私敏感型企业、需要离线工作的记者与研究人员，以及欧洲多语言内容处理团队。

常规风险

本地服务虽规避云端泄露风险，但需注意Docker容器权限配置、音频文件存储路径的访问控制，以及模型权重的来源可信性。

speech-to-text asr local-ai nvidia-parakeet openai-compatible onnx privacy-focused multilingual docker

Parakeet Stt 内容

手动下载zip · 1.5 kB

SKILL.mdtext/markdown

请选择文件