使用说明

核心用法

该 Skill 提供通用语音识别能力，通过调用硅基流动 SenseVoice API 将音频转换为文字。支持 .ogg/.mp3/.wav/.m4a 等多种格式，用户可通过直接发送语音消息、上传音频文件或主动请求转录来触发。使用前需在 ~/.openclaw/openclaw.json 配置硅基流动 API Key。

显著优点

1. 中文识别精准：采用阿里巴巴通义实验室开源的 SenseVoiceSmall 模型，针对中文场景优化，识别准确率高
2. 格式兼容广泛：原生支持主流音频格式，配合 FFmpeg 可处理 Telegram OGG、iOS M4A 等特殊格式
3. 集成便捷：提供完整的 Python 调用示例和错误处理指南，开发者可快速集成
4. 生态协同：与 douyin-video（视频语音提取）、cosyvoice-tts（语音合成）形成互补，构建完整语音处理流水线

潜在缺点与局限性

隐私敏感：音频需上传至第三方云服务器（硅基流动），不适合机密内容处理
时长与大小限制：建议音频 < 10MB、< 5 分钟，长音频需人工分割
单一模型依赖：仅内置 SenseVoiceSmall，无多模型备选或本地部署选项
网络依赖强：API 调用需稳定网络，超时重试机制需自行实现

适合人群

需要快速转录会议、采访、播客的办公人士
处理即时通讯语音消息的自动化工作流开发者
中文内容创作者进行语音字幕生成

常规风险

| 风险类型 | 说明 | 缓解建议 |

|---------|------|---------|

| 隐私泄露 | 音频上传第三方 | 避免处理敏感、涉密内容 |

| API 密钥泄露 | 配置文件存储明文密钥 | 使用环境变量替代，设置最小权限 |

| 服务中断 | 依赖单一云服务商 | 实现降级方案或本地 Whisper 备选 |

| 识别误差 | 口音、噪声干扰 | 关键场景人工校对复核 |

安全解读

综合性评估：Speech-Recognition Skill

1. 核心用法：便捷的语音转文字

Speech-Recognition 是一个通用语音识别技能，核心功能是将多种格式的音频文件转换为文本。它借助硅基流动的 SenseVoice API 实现高精度的语音转录，能处理用户发送的语音消息（如来自 Telegram 或 Signal 的 .ogg 文件）或音视频文件（MP3、WAV、M4A 等）。当用户发送符合格式的音频或发出“转录”、“语音转文字”等指令时即被激活，能自动进行格式转换、API 调用，最终返回识别出的文字内容。

2. 显著优点：高效、透明、低门槛

高效实用：直击用户将语音信息转为可搜索、可编辑文本的核心痛点，自动化程度高，支持通过 FFmpeg 自动处理多种音频格式。
透明性强：Skill 文档结构清晰，主动披露了音频数据会上传至第三方服务器的隐私行为，并在代码示例中展示了完整的处理流程，便于用户理解和审计。
低门槛易用：无需复杂的机器学习环境配置，只需提供硅基流动的 API Key 即可快速使用，配置方式灵活（环境变量或配置文件均可）。

3. 潜在缺点与局限性

依赖外部 API：核心的语音识别功能完全依赖硅基流动的云服务，无网络或服务宕机时将不可用。
格式转换依赖：处理非 MP3 格式的音频时，需要系统中安装 FFmpeg 工具，这对部分用户可能存在额外配置门槛。
无本地处理能力：不支持离线语音识别，所有音频数据必须发送至云端处理，此为功能而非设计缺陷，但约束了其使用场景。

4. 适合的目标群体

办公与效率用户：需要将会议录音、采访音频快速整理成文字记录的知识工作者。
即时通讯重度用户：更习惯通过语音消息沟通，但需要将关键信息转为文字存档或转发的人。
内容创作者：希望将视频、播客中的语音素材高效转录为文案的文字工作者。

5. 使用风险与注意事项

隐私风险：用户音频内容会上传至第三方服务器（硅基流动），虽已通过 HTTPS 加密传输并主动披露，仍需用户自行评估所处理音频的机密性。严禁用于处理高度敏感的涉密或合规要求极高的录音。
来源可信度：该 Skill 来自个人开发者（T3 来源），缺乏组织级的安全保障和代码审查流程，用户需自行承担信赖个人开发者的风险。
性能与运行时风险：使用 /tmp/ 目录存放临时文件，存在文件名可预测的潜在风险（如竞态条件）。音频文件大小和时长受 API 限制，处理大文件时可能失败。
凭证安全：通过环境变量读取 API Key 是常规做法，但用户需确保该环境变量不被未授权的程序访问或记录到日志中。

speech-recognition asr chinese-nlp siliconflow sensevoice audio-processing api-integration voice-to-text

speech-recognition 内容

手动下载zip · 2.6 kB

skill.jsonapplication/json

请选择文件