核心功能
local-stt 是一个统一的本地语音转文本(Speech-to-Text)解决方案,基于 ONNX Runtime 实现 int8 量化推理,无需依赖云服务即可完成语音识别任务。
双后端架构
| 后端 | 优势 | 适用场景 |
|------|------|----------|
| **Parakeet** (默认) | 英语识别精度最高,能准确捕获专有名词和填充词 | 英语播客、会议记录 |
| **Whisper** | 推理速度最快,支持99种语言 | 多语言内容、实时转写 |
技术亮点
- 本地优先:数据不出设备,隐私保障
- int8量化:内存占用低,CPU推理高效(24秒音频0.4-0.6秒完成)
- 模型灵活:Parakeet v2/v3、Whisper tiny→large-v3-turbo 多档可选
- 集成友好:通过
openclaw.json可直接嵌入媒体处理工作流
使用方式
# 默认Parakeet v2(最佳英语精度) local-stt.py audio.ogg # 切换Whisper多语言 local-stt.py audio.ogg -b whisper # 安静模式(适合脚本调用) local-stt.py audio.ogg --quiet
局限性
- 硬件依赖:需安装
ffmpeg,ONNX Runtime 对旧CPU指令集支持有限 - 首载延迟:模型首次加载需下载(Parakeet ~100MB,Whisper base ~75MB)
- 语言权衡:Parakeet v2仅英语,v3多语言但精度略降;Whisper小模型速快但错字率高
- 无GPU加速:当前仅CPU推理,large模型较慢
适合人群
隐私敏感用户、离线环境工作者、需要将语音自动化集成到CLI工作流的开发者。不适合需要实时字幕(RTF虽低但非流式)或专业级转写(无标点预测、说话人分离)的场景。
常规风险
- 模型偏见:训练数据偏差可能导致特定口音识别率下降
- 量化损失:int8虽快,极端音频质量下精度可能劣于fp16
- 依赖安全:
ffmpeg解析多媒体文件存在潜在漏洞面