使用说明

该技能通过封装 inference.sh CLI 工具，为用户提供基于 OpenAI Whisper 模型的企业级语音转文字解决方案。核心用法极其简洁：用户只需通过 infsh app run 命令传入音频 URL，即可调用 Fast Whisper Large V3（快速版）或 Whisper V3 Large（高精度版）模型完成转录。支持基础转录、带时间戳分段、99种语言自动识别以及非英语音频到英语的翻译功能，并可与视频音频提取、字幕生成等工具链集成，实现从视频到字幕的完整工作流。

显著优点包括：首先，背靠 inference.sh 成熟的 AI 推理平台，模型性能稳定可靠；其次，提供双模型策略，用户可在速度与精度间灵活选择；再者，原生支持时间戳输出与翻译功能，满足字幕制作与跨国会议需求；最后，与视频处理技能无缝衔接，支持从视频提取音频到生成字幕的自动化流程。

潜在缺点与局限性不容忽视：该技能本质上为文档型封装，完全依赖外部 infsh CLI 工具，若 inference.sh 服务中断或 CLI 工具变更，功能将失效；所有音频数据需上传至第三方云端处理，对敏感内容存在隐私风险；作为纯文档实现，缺乏本地缓存或离线能力；且当前由个人开发者维护（T3来源），长期维护稳定性存疑。

适合目标群体包括：需要快速生成会议纪要的企业行政人员、制作播客与视频字幕的内容创作者、处理采访录音的记者与研究人员，以及需要音频内容无障碍化的 accessibility 从业者。

使用风险主要涉及：数据隐私方面，音频文件需上传至 inference.sh 服务器，敏感商业或私人内容存在泄露风险；性能依赖网络连接质量与第三方服务稳定性；此外，示例代码中包含 curl 下载脚本，用户需自行验证 https://cli.inference.sh 的可信度，避免供应链攻击。

安全解读

核心用法

本Skill提供通过inference.sh CLI调用Whisper模型的语音转文本服务。主要功能包括：

基础转录：将音频/视频转换为纯文本
时间戳标记：生成带时间码的分段文本
多语言翻译：自动识别语言并支持翻译为英文
视频处理链：提取音频→转录→生成字幕的完整工作流

快速上手

# 安装CLI并登录
curl -fsSL https://cli.inference.sh | sh && infsh login

# 基础转录
infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "https://audio.mp3"}'

模型选择

| 模型 | 特点 | 适用场景 |

|------|------|---------|

| Fast Whisper V3 (`infsh/fast-whisper-large-v3`) | 速度快 | 实时性要求高的会议、播客 |

| Whisper V3 Large (`infsh/whisper-v3-large`) | 精度最高 | 需要准确字幕、专业转录 |

显著优点

1. 99+语言支持：覆盖全球主流语言及方言，自动检测语言
2. 零基础设施：无需自建GPU服务器，按调用付费
3. 生态整合：与inference.sh平台150+ AI应用无缝衔接，支持视频字幕、AI对口型等下游任务
4. 输出结构化：JSON格式包含完整文本、分段时间戳、检测语言，便于程序化使用
5. 隐私合规：音频URL由用户自行托管，平台仅处理推理请求，符合GDPR/CCPA

潜在缺点与局限性

网络依赖：必须联网调用inference.sh API，无法离线使用
curl\|bash安装风险：官方推荐安装方式存在动态代码执行风险（已通过安全审计，属可控范围）
成本敏感：长音频高频调用可能产生显著费用
无实时流式：当前为批处理模式，不适合实时字幕场景
音频质量敏感：嘈杂环境、口音重的音频准确率下降明显

适合人群

内容创作者：播客主、视频博主快速生成字幕稿
企业用户：会议记录自动化、访谈整理
开发者：构建语音搜索、内容分析等AI应用
无障碍需求：为听力障碍者提供音频内容文字版

常规风险

API可用性：依赖inference.sh平台服务稳定性
数据隐私：音频URL需确保来源可信，避免敏感录音泄露
转录误差：专业术语、人名、数字可能出现错误，关键内容需人工校对

content-media productivity docs automation

speech-to-text 内容

手动下载zip · 1.8 kB

SKILL.mdtext/markdown

请选择文件