local-stt

🎙️ 本地隐私优先的智能语音转录

基于ONNX Runtime的本地语音转文本工具,支持Parakeet高精度英语识别与Whisper多语言快速转录,无需联网即可保障隐私安全。

收藏
11.8k
安装
3.2k
版本
v1.0.0
CLS 安全性认证2026-05-05
点击查看完整报告 >

使用说明

核心用法

local-stt 是一款本地运行的语音转文本(STT)工具,通过 ONNX Runtime 实现高效推理,支持两种可选后端:

  • Parakeet(默认):专为英语优化,v2 版本提供最佳准确率,能正确捕捉专有名词和填充词;v3 版本扩展至多语言支持
  • Whisper:OpenAI 开源模型,推理速度最快,支持 99 种语言,提供 tiny/base/small/large-v3-turbo 四级模型可选

用户通过命令行直接调用,支持 -b 指定后端、-m 选择模型变体、、--no-int8 关闭量化以获得更高精度,,--quiet 静默模式适合脚本集成。工具同时提供 Matrix 房间消息发送的扩展能力。

显著优点

1. 完全本地运行:音频数据无需上传云端,从根本上杜绝隐私泄露风险,适合敏感场景
2. 双后端灵活选择:英语场景选 Parakeet 追求极致准确率,多语言或速度优先选 Whisper

3. INT8 量化加速:默认启用量化推理,Parakeet v2 处理 24 秒音频仅需 0.6 秒,实时率(RTF)低至 0.025x

4. 零配置开箱即用:依赖通过 PEP 723 锁定,模型首次自动从 HuggingFace 下载,无需手动部署

5. openclaw 原生集成:提供标准 JSON 配置模板,可直接嵌入自动化工作流

潜在缺点与局限性

  • 非流式处理:仅支持完整音频文件转录,无法满足实时语音输入场景
  • 环境依赖:强制要求 Python 3.12+ 和 ffmpeg 二进制文件,老旧系统兼容性受限
  • 模型体积:Whisper large-v3-turbo 等高质量模型占用显存/内存较大,边缘设备可能吃力
  • T3 来源风险:由个人开发者账号维护,长期更新稳定性存疑
  • Matrix 功能需额外配置:消息发送依赖环境变量手动设置,非全自动集成

适合的目标群体

  • 注重隐私的开发者与内容创作者(播客、访谈转录)
  • 需要离线 STT 能力的企业内网环境
  • openclaw/Matrix 生态用户,寻求语音理解自动化
  • 英语为主、偶尔多语言的中小团队

使用风险

  • 首次冷启动延迟:模型下载依赖 HuggingFace 连接,网络不畅时可能超时
  • ffmpeg 版本兼容性:不同系统 ffmpeg 编解码支持差异可能导致特定格式解析失败
  • 量化精度损失:INT8 模式虽快,但对低质量音频或口音较重内容的识别率可能下降
  • 临时文件清理:虽已实现 try-finally 保障,但异常中断时仍可能残留中间文件

安全解读

核心功能

local-stt 是一款基于 ONNX Runtime 的本地语音转文本工具,采用 int8 量化技术实现高效推理。提供双后端架构:

  • Parakeet(默认):专为英语优化,v2 版本在24秒音频上仅需0.6秒完成转录,擅长捕捉专有名词和语气词
  • Whisper:OpenAI 开源多语言模型,支持99种语言,base 模型推理速度最快(0.43秒),适合多语种场景

显著优点

1. 隐私优先:完全本地推理,音频数据不上传云端,符合敏感场景合规要求
2. 灵活部署:通过环境变量控制可选的 Matrix 消息推送,网络功能显式可控

3. 依赖可信:核心依赖 onnxruntime、huggingface_hub 等知名开源库,无已知 CVE

4. 量化加速:int8 量化使推理速度提升,RTF(实时率)低至 0.018x

潜在局限

  • 英语场景最优:Parakeet 虽精度最高,但仅支持英语;Whisper 多语言但精度略逊
  • 模型体积:首次运行需从 HuggingFace 下载 ONNX 模型(数百MB级)
  • 硬件依赖:ONNX Runtime 性能与 CPU 指令集优化相关,老旧设备体验可能下降

适合人群

  • 隐私敏感的企业会议纪要场景
  • 需要离线运行的边缘计算设备
  • 多语言播客/视频内容创作者(选 Whisper)
  • 英语高精度转写需求(选 Parakeet v2)

常规风险

  • Matrix 发送功能需用户显式配置环境变量,误配置可能导致文本外泄
  • ffmpeg 子进程调用虽无注入风险,但需确保二进制来源可信
  • T3 个人开发者来源,建议关注后续更新安全性

使用建议

推荐默认使用 Parakeet v2 int8 配置,兼顾精度与速度;多语言场景切换 Whisper base。生产环境建议禁用 Matrix 功能或配置白名单,定期清理 /tmp/stt_matrix.log 日志文件。

local-stt 内容

scripts文件夹
手动下载zip · 3.8 kB
local-stt.pytext/plain
请选择文件