使用说明

核心用法

speech-to-text 是一款通过 inference.sh CLI 调用 Whisper 模型的语音转文字工具，提供两条命令行路径：

1. 快速安装：curl -fsSL https://cli.inference.sh | sh && infsh login，脚本仅检测系统架构、下载匹配二进制并校验SHA-256，无需提权
2. 模型调用：

基础转写：infsh app run infsh/fast-whisper-large-v3 --input '{"audio_url": "URL"}'
带时间戳：添加 "timestamps": true
翻译为英文：指定 "task": "translate"
视频处理：先通过 infsh/video-audio-extractor 提取音频再转写

输出为结构化JSON，包含完整文本、分段时间戳（可选）及自动检测的语言标识。

显著优点

双模型策略：Fast Whisper V3 平衡速度，Whisper V3 Large 追求精度
多语言能力：官方宣称支持99+语言，覆盖主流语系
工作流整合：与 caption-videos、ai-avatar-video 等技能形成视频字幕完整 pipeline
CLI原生设计：Unix哲学，管道友好，易于脚本化批量处理
零本地算力：纯云端推理，终端设备仅需网络连接

潜在局限

网络依赖：音频文件需上传至可访问URL，隐私敏感场景受限
成本不透明：inference.sh采用用量计费，但未公开具体定价
无实时流式：仅支持录制文件批处理，无法直播实时字幕
中文场景：Whisper对中文专有名词、口音识别存在已知误差
供应商锁定：CLI与模型生态深度绑定inference.sh平台

适合人群

内容创作者（播客/视频制作）、远程协作团队、研究人员、无障碍服务开发者，以及需要将非结构化音频转化为可搜索文本的知识工作者。

常规风险

1. 数据隐私：音频上传至第三方云推理节点，敏感会议/医疗/法律内容需谨慎评估
2. 转写准确性：说话人重叠、背景噪音、专业术语场景需人工复核
3. 服务连续性：单一供应商架构，平台变更可能影响可用性
4. URL持久性：输入音频需保持可访问直至处理完成

安全解读

核心用法

Speech-to-Text Skill 通过 inference.sh 云平台提供 Whisper 模型的语音转文字能力。用户需先安装 infsh CLI 工具，随后通过简单的命令行调用即可实现音频转录。支持两种模型选择：Fast Whisper Large V3（速度优先）和 Whisper V3 Large（精度优先）。核心功能包括基础转录、时间戳分段、多语言自动识别以及翻译至英语。

使用流程极为简洁：配置音频 URL 后，通过 infsh app run 命令指定模型和参数即可获取 JSON 格式结果，包含完整文本、分段时间戳和检测语言。对于视频场景，可配合 video-audio-extractor 先提取音频再转录。

显著优点

1. 模型权威性：底层采用 OpenAI Whisper 开源模型，经大规模多语言数据训练，识别准确率行业领先
2. 零本地计算：云端推理模式，无需 GPU 硬件投入，普通设备即可处理长音频
3. 多语言能力：原生支持 99+ 语言，自动语言检测省去手动配置
4. 工作流整合：与 caption-videos、ai-avatar-video 等 Skill 无缝衔接，支持从视频到字幕的完整链路
5. 安全透明：CLI 安装脚本开源可审计，提供 SHA-256 校验和手动验证方式

潜在局限

网络依赖：必须保持与 inference.sh 服务的稳定连接，离线场景不可用
隐私考量：音频数据需上传至第三方云端处理，敏感内容存在合规风险
成本因素：基于云 API 计费模式，高频使用成本可能高于本地部署方案
格式限制：需先将音频处理为支持的格式，部分专业音频编码需预转换
延迟问题：长音频文件传输和推理存在端到端延迟，实时转录能力有限

适合人群

内容创作者（播客、YouTuber）需要快速生成文字稿和字幕
企业行政人员处理会议录音转写和纪要整理
研究人员进行访谈录音的文本化分析
无障碍服务从业者为视听内容制作文字替代品
多语言团队需要跨语言音频的英译文本

常规风险

1. 数据驻留：音频内容上传至 inference.sh 境外服务器，涉及数据跨境传输合规问题
2. API 密钥管理：infsh login 生成的凭证需妥善保管，避免泄露导致账户滥用
3. 转录准确性： Whisper 在口音、专业术语、低质量音频场景下可能出现识别偏差，重要场景建议人工校对
4. 服务连续性：依赖单一云服务商，存在因平台维护或政策变动导致服务中断的风险
5. 示例代码误读：文档中的 curl | sh 安装方式虽为官方推荐，但用户应理解其含义，建议先审查脚本再执行

whisper speech-to-text transcription subtitle-generation multi-language ai-translation cli-tool meeting-notes podcast-production accessibility

Speech To Text 内容

手动下载zip · 1.9 kB

SKILL.mdtext/markdown

请选择文件