核心用法
该 Skill 提供通用语音识别能力,通过调用硅基流动 SenseVoice API 将音频转换为文字。支持 .ogg/.mp3/.wav/.m4a 等多种格式,用户可通过直接发送语音消息、上传音频文件或主动请求转录来触发。使用前需在 ~/.openclaw/openclaw.json 配置硅基流动 API Key。
显著优点
1. 中文识别精准:采用阿里巴巴通义实验室开源的 SenseVoiceSmall 模型,针对中文场景优化,识别准确率高
2. 格式兼容广泛:原生支持主流音频格式,配合 FFmpeg 可处理 Telegram OGG、iOS M4A 等特殊格式
3. 集成便捷:提供完整的 Python 调用示例和错误处理指南,开发者可快速集成
4. 生态协同:与 douyin-video(视频语音提取)、cosyvoice-tts(语音合成)形成互补,构建完整语音处理流水线
潜在缺点与局限性
- 隐私敏感:音频需上传至第三方云服务器(硅基流动),不适合机密内容处理
- 时长与大小限制:建议音频 < 10MB、< 5 分钟,长音频需人工分割
- 单一模型依赖:仅内置 SenseVoiceSmall,无多模型备选或本地部署选项
- 网络依赖强:API 调用需稳定网络,超时重试机制需自行实现
适合人群
- 需要快速转录会议、采访、播客的办公人士
- 处理即时通讯语音消息的自动化工作流开发者
- 中文内容创作者进行语音字幕生成
常规风险
| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| 隐私泄露 | 音频上传第三方 | 避免处理敏感、涉密内容 |
| API 密钥泄露 | 配置文件存储明文密钥 | 使用环境变量替代,设置最小权限 |
| 服务中断 | 依赖单一云服务商 | 实现降级方案或本地 Whisper 备选 |
| 识别误差 | 口音、噪声干扰 | 关键场景人工校对复核 |