speech-recognition

🎙️ 多格式语音转文字,中文精准识别

基于硅基流动 SenseVoice API 的通用语音识别工具,支持多格式音频转文字,中文识别效果优异,适合会议记录、语音消息处理等场景。

收藏
14.5k
安装
4.5k
版本
1.0.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

该 Skill 提供通用语音识别能力,通过调用硅基流动 SenseVoice API 将音频转换为文字。支持 .ogg/.mp3/.wav/.m4a 等多种格式,用户可通过直接发送语音消息、上传音频文件或主动请求转录来触发。使用前需在 ~/.openclaw/openclaw.json 配置硅基流动 API Key。

显著优点

1. 中文识别精准:采用阿里巴巴通义实验室开源的 SenseVoiceSmall 模型,针对中文场景优化,识别准确率高
2. 格式兼容广泛:原生支持主流音频格式,配合 FFmpeg 可处理 Telegram OGG、iOS M4A 等特殊格式

3. 集成便捷:提供完整的 Python 调用示例和错误处理指南,开发者可快速集成

4. 生态协同:与 douyin-video(视频语音提取)、cosyvoice-tts(语音合成)形成互补,构建完整语音处理流水线

潜在缺点与局限性

  • 隐私敏感:音频需上传至第三方云服务器(硅基流动),不适合机密内容处理
  • 时长与大小限制:建议音频 < 10MB、< 5 分钟,长音频需人工分割
  • 单一模型依赖:仅内置 SenseVoiceSmall,无多模型备选或本地部署选项
  • 网络依赖强:API 调用需稳定网络,超时重试机制需自行实现

适合人群

  • 需要快速转录会议、采访、播客的办公人士
  • 处理即时通讯语音消息的自动化工作流开发者
  • 中文内容创作者进行语音字幕生成

常规风险

| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| 隐私泄露 | 音频上传第三方 | 避免处理敏感、涉密内容 |
| API 密钥泄露 | 配置文件存储明文密钥 | 使用环境变量替代,设置最小权限 |
| 服务中断 | 依赖单一云服务商 | 实现降级方案或本地 Whisper 备选 |
| 识别误差 | 口音、噪声干扰 | 关键场景人工校对复核 |

安全解读

综合性评估:Speech-Recognition Skill

1. 核心用法:便捷的语音转文字

Speech-Recognition 是一个通用语音识别技能,核心功能是将多种格式的音频文件转换为文本。它借助硅基流动的 SenseVoice API 实现高精度的语音转录,能处理用户发送的语音消息(如来自 Telegram 或 Signal 的 .ogg 文件)或音视频文件(MP3、WAV、M4A 等)。当用户发送符合格式的音频或发出“转录”、“语音转文字”等指令时即被激活,能自动进行格式转换、API 调用,最终返回识别出的文字内容。

2. 显著优点:高效、透明、低门槛

  • 高效实用:直击用户将语音信息转为可搜索、可编辑文本的核心痛点,自动化程度高,支持通过 FFmpeg 自动处理多种音频格式。
  • 透明性强:Skill 文档结构清晰,主动披露了音频数据会上传至第三方服务器的隐私行为,并在代码示例中展示了完整的处理流程,便于用户理解和审计。
  • 低门槛易用:无需复杂的机器学习环境配置,只需提供硅基流动的 API Key 即可快速使用,配置方式灵活(环境变量或配置文件均可)。

3. 潜在缺点与局限性

  • 依赖外部 API:核心的语音识别功能完全依赖硅基流动的云服务,无网络或服务宕机时将不可用。
  • 格式转换依赖:处理非 MP3 格式的音频时,需要系统中安装 FFmpeg 工具,这对部分用户可能存在额外配置门槛。
  • 无本地处理能力:不支持离线语音识别,所有音频数据必须发送至云端处理,此为功能而非设计缺陷,但约束了其使用场景。

4. 适合的目标群体

  • 办公与效率用户:需要将会议录音、采访音频快速整理成文字记录的知识工作者。
  • 即时通讯重度用户:更习惯通过语音消息沟通,但需要将关键信息转为文字存档或转发的人。
  • 内容创作者:希望将视频、播客中的语音素材高效转录为文案的文字工作者。

5. 使用风险与注意事项

  • 隐私风险:用户音频内容会上传至第三方服务器(硅基流动),虽已通过 HTTPS 加密传输并主动披露,仍需用户自行评估所处理音频的机密性。严禁用于处理高度敏感的涉密或合规要求极高的录音。
  • 来源可信度:该 Skill 来自个人开发者(T3 来源),缺乏组织级的安全保障和代码审查流程,用户需自行承担信赖个人开发者的风险。
  • 性能与运行时风险:使用 /tmp/ 目录存放临时文件,存在文件名可预测的潜在风险(如竞态条件)。音频文件大小和时长受 API 限制,处理大文件时可能失败。
  • 凭证安全:通过环境变量读取 API Key 是常规做法,但用户需确保该环境变量不被未授权的程序访问或记录到日志中。

speech-recognition 内容

手动下载zip · 2.6 kB
skill.jsonapplication/json
请选择文件