Local STT (Nvidia Parakeet + Whisper Support)

🎙️ 本地AI语音识别,隐私无忧

ai榜 #8

本地语音转文本工具,支持Parakeet(英语高精度)与Whisper(99语言极速)双后端,ONNX Runtime int8量化加速

收藏
7k
安装
2.7k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心功能

local-stt 是一个统一的本地语音转文本(Speech-to-Text)解决方案,基于 ONNX Runtime 实现 int8 量化推理,无需依赖云服务即可完成语音识别任务。

双后端架构

| 后端 | 优势 | 适用场景 |
|------|------|----------|
| **Parakeet** (默认) | 英语识别精度最高,能准确捕获专有名词和填充词 | 英语播客、会议记录 |
| **Whisper** | 推理速度最快,支持99种语言 | 多语言内容、实时转写 |

技术亮点

  • 本地优先:数据不出设备,隐私保障
  • int8量化:内存占用低,CPU推理高效(24秒音频0.4-0.6秒完成)
  • 模型灵活:Parakeet v2/v3、Whisper tiny→large-v3-turbo 多档可选
  • 集成友好:通过 openclaw.json 可直接嵌入媒体处理工作流

使用方式

# 默认Parakeet v2(最佳英语精度)
local-stt.py audio.ogg

# 切换Whisper多语言
local-stt.py audio.ogg -b whisper

# 安静模式(适合脚本调用)
local-stt.py audio.ogg --quiet

局限性

  • 硬件依赖:需安装 ffmpeg,ONNX Runtime 对旧CPU指令集支持有限
  • 首载延迟:模型首次加载需下载(Parakeet ~100MB,Whisper base ~75MB)
  • 语言权衡:Parakeet v2仅英语,v3多语言但精度略降;Whisper小模型速快但错字率高
  • 无GPU加速:当前仅CPU推理,large模型较慢

适合人群

隐私敏感用户、离线环境工作者、需要将语音自动化集成到CLI工作流的开发者。不适合需要实时字幕(RTF虽低但非流式)或专业级转写(无标点预测、说话人分离)的场景。

常规风险

  • 模型偏见:训练数据偏差可能导致特定口音识别率下降
  • 量化损失:int8虽快,极端音频质量下精度可能劣于fp16
  • 依赖安全ffmpeg解析多媒体文件存在潜在漏洞面

Local STT (Nvidia Parakeet + Whisper Support) 内容

暂无文件树

手动下载zip · 3.8 kB
contentapplication/octet-stream
请选择文件