使用说明

核心用法

通用语音识别 Skill 基于硅基流动（SiliconFlow）的 SenseVoice API，支持将多种音频格式（OGG、MP3、WAV、M4A、FLAC）转换为文字。主要面向两类使用场景：一是处理用户发送的语音消息文件，二是响应主动转录请求如"转录这个音频"。

使用方法有两种路径：直接调用 REST API 进行程序化转录，或通过 Kuro 内置流程自动处理。对于非 MP3 格式（如 Telegram 常用的 OGG），需先用 FFmpeg 转换为 16kHz 单声道 MP3 以优化识别效果。

显著优点

1. 中文识别精准：采用阿里达摩院开源的 SenseVoice 模型，针对中文语音优化，识别准确率高
2. 格式兼容广泛：覆盖主流音频格式，通过 FFmpeg 预处理可处理几乎所有音频输入
3. 集成成本低：标准 OpenAI 格式的 API 端点，易于接入现有工作流
4. 国内服务稳定：硅基流动为国内厂商，API 访问延迟低、可用性高

潜在缺点与局限

隐私敏感：音频需上传至第三方服务器处理，不适合涉密内容
文件限制：建议控制在 10MB/5 分钟以内，长音频需手动分割
语言局限：虽支持英文，但中文以外的多语种效果未明确说明
依赖外部服务：API Key 和配额管理增加维护成本

适合人群

需要快速转录会议录音、播客、访谈的内容创作者
处理即时通讯语音消息的自动化工作流开发者
中文为主的语音识别需求用户

常规风险

API Key 泄露可能导致配额被盗用
敏感语音内容存在云端留存风险
网络不稳定时可能出现超时失败
需自行处理格式转换和错误重试逻辑

speech-to-text audio-processing api-integration chinese-language siliconflow sensevoice transcription

speech-recognition 内容

手动下载zip · 2.6 kB

skill.jsonapplication/json

请选择文件