核心用法
通用语音识别 Skill 基于硅基流动(SiliconFlow)的 SenseVoice API,支持将多种音频格式(OGG、MP3、WAV、M4A、FLAC)转换为文字。主要面向两类使用场景:一是处理用户发送的语音消息文件,二是响应主动转录请求如"转录这个音频"。
使用方法有两种路径:直接调用 REST API 进行程序化转录,或通过 Kuro 内置流程自动处理。对于非 MP3 格式(如 Telegram 常用的 OGG),需先用 FFmpeg 转换为 16kHz 单声道 MP3 以优化识别效果。
显著优点
1. 中文识别精准:采用阿里达摩院开源的 SenseVoice 模型,针对中文语音优化,识别准确率高
2. 格式兼容广泛:覆盖主流音频格式,通过 FFmpeg 预处理可处理几乎所有音频输入
3. 集成成本低:标准 OpenAI 格式的 API 端点,易于接入现有工作流
4. 国内服务稳定:硅基流动为国内厂商,API 访问延迟低、可用性高
潜在缺点与局限
- 隐私敏感:音频需上传至第三方服务器处理,不适合涉密内容
- 文件限制:建议控制在 10MB/5 分钟以内,长音频需手动分割
- 语言局限:虽支持英文,但中文以外的多语种效果未明确说明
- 依赖外部服务:API Key 和配额管理增加维护成本
适合人群
- 需要快速转录会议录音、播客、访谈的内容创作者
- 处理即时通讯语音消息的自动化工作流开发者
- 中文为主的语音识别需求用户
常规风险
- API Key 泄露可能导致配额被盗用
- 敏感语音内容存在云端留存风险
- 网络不稳定时可能出现超时失败
- 需自行处理格式转换和错误重试逻辑