speech-recognition

🎙️ 多格式语音一键转文字

基于硅基流动 SenseVoice 的通用语音识别工具,支持多格式音频转文字,中文识别效果优异

收藏
11.8k
安装
4.4k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

通用语音识别 Skill 基于硅基流动(SiliconFlow)的 SenseVoice API,支持将多种音频格式(OGG、MP3、WAV、M4A、FLAC)转换为文字。主要面向两类使用场景:一是处理用户发送的语音消息文件,二是响应主动转录请求如"转录这个音频"。

使用方法有两种路径:直接调用 REST API 进行程序化转录,或通过 Kuro 内置流程自动处理。对于非 MP3 格式(如 Telegram 常用的 OGG),需先用 FFmpeg 转换为 16kHz 单声道 MP3 以优化识别效果。

显著优点

1. 中文识别精准:采用阿里达摩院开源的 SenseVoice 模型,针对中文语音优化,识别准确率高
2. 格式兼容广泛:覆盖主流音频格式,通过 FFmpeg 预处理可处理几乎所有音频输入

3. 集成成本低:标准 OpenAI 格式的 API 端点,易于接入现有工作流

4. 国内服务稳定:硅基流动为国内厂商,API 访问延迟低、可用性高

潜在缺点与局限

  • 隐私敏感:音频需上传至第三方服务器处理,不适合涉密内容
  • 文件限制:建议控制在 10MB/5 分钟以内,长音频需手动分割
  • 语言局限:虽支持英文,但中文以外的多语种效果未明确说明
  • 依赖外部服务:API Key 和配额管理增加维护成本

适合人群

  • 需要快速转录会议录音、播客、访谈的内容创作者
  • 处理即时通讯语音消息的自动化工作流开发者
  • 中文为主的语音识别需求用户

常规风险

  • API Key 泄露可能导致配额被盗用
  • 敏感语音内容存在云端留存风险
  • 网络不稳定时可能出现超时失败
  • 需自行处理格式转换和错误重试逻辑

speech-recognition 内容

手动下载zip · 2.6 kB
skill.jsonapplication/json
请选择文件