使用说明

核心用法

Parakeet TDT 0.6B v3 是基于 NVIDIA 开源模型的本地化语音识别方案，通过 ONNX Runtime 在 CPU 上运行，无需 GPU 即可实现高性能转录。部署方式灵活：Docker Compose 一键启动，或 Python 直接运行 FastAPI 服务。默认监听 5000 端口，通过环境变量 PARAKEET_URL 可自定义端点。

API 完全兼容 OpenAI Audio Transcriptions 接口，支持 text、json、verbose_json、srt、vtt 五种输出格式。Python 用户可直接使用官方 openai SDK，仅需替换 base_url 即可无缝迁移现有代码。

显著优点

极致速度：约 30 倍实时转录速度，显著优于 Whisper 的 CPU 表现
隐私优先：100% 本地运行，音频数据不出设备，满足医疗、法律等敏感场景合规要求
开箱即用：25 种欧洲主流语言自动检测，无需手动指定语言代码
生态兼容：OpenAI API 格式降低迁移成本，现有 Whisper 集成可平替
轻量部署：0.6B 参数模型 + ONNX 优化，普通消费级 CPU 即可流畅运行

潜在局限

语言覆盖有限：专注欧洲语系，中文、日语、韩语、阿拉伯语等主流亚洲语言缺失
模型规模约束：0.6B 参数量在复杂口音、专业术语、低信噪比场景下精度可能不及 Whisper large-v3
社区支持待观察：GitHub 仓库较新，长期维护、Bug 修复响应速度不确定
无实时流式：当前版本仅支持文件级批处理，实时麦克风转录需自行实现

适合人群

隐私敏感型开发者、欧洲多语言内容创作者、需离线部署的企业内网环境、已有 OpenAI 代码库寻求降本替代的技术团队。

常规风险

模型权重来源需自行验证哈希完整性；Docker 镜像若使用非官方构建存在供应链风险；本地服务默认无认证，公网暴露可能导致未授权访问。

安全解读

核心用法

Parakeet STT 是一款指导用户本地部署 NVIDIA Parakeet TDT 0.6B v3 语音转文本模型的 Skill。用户通过 Docker 或 Python 直接运行服务，获得与 OpenAI Whisper API 完全兼容的本地端点。支持 25 种欧洲语言自动检测，无需手动指定语种。

部署后，可通过 $PARAKEET_URL/v1/audio/transcriptions 上传音频文件，获取纯文本、JSON、带时间戳的详细分段或 SRT/VTT 字幕格式。提供浏览器拖拽界面便于非技术用户使用。Python 开发者可直接使用 OpenAI SDK 调用，仅需将 base_url 指向本地服务。

显著优点

极致速度：CPU 上约 30 倍实时转录速度，远胜 Whisper
隐私优先：100% 本地处理，音频数据不上传任何云端
零成本运营：无需 OpenAI API 密钥，无按量计费
无缝迁移：OpenAI 兼容 API，现有代码几乎零改动
多语言支持：内置 25 种语言自动识别，无需配置

潜在局限

硬件依赖：虽仅需 CPU，但模型体积约 600M，低配置机器可能影响响应
语言覆盖：专注欧洲语系，中文、日文、韩文等亚洲语言不支持
维护风险：来源为个人开发者（T3），长期更新和漏洞修复依赖社区
无内置认证：默认配置无访问控制，共享环境需额外配置反向代理

适合人群

对数据隐私敏感的播客、记者、研究人员
需批量处理音频且希望控制成本的内容创作者
已有 OpenAI 代码但希望完全离线的开发者
欧洲多语言场景的企业内部部署

常规风险

主要风险集中于供应链安全：用户需自行克隆并运行外部 GitHub 项目的 Docker 镜像。建议首次使用前审查 Dockerfile 和源码，避免使用非官方镜像。生产部署时应限制网络访问至本地回环，并考虑通过 Nginx 等添加基础认证。

speech-to-text local-ai nvidia onnx openai-compatible privacy docker cpu-optimized multilingual transcription

Parakeet Stt 内容

手动下载zip · 1.8 kB

SKILL.mdtext/markdown

请选择文件