video-subtitles

🎬 AI 音视频字幕一键生成专家

内容创作榜 #25

基于 OpenAI Whisper 和 ivrit.ai 的开源字幕生成工具,支持希伯来语/英语转录、翻译及硬字幕烧录,为社交媒体内容创作者提供一键式专业字幕解决方案。

收藏
18.4k
安装
4.2k
版本
v1.0.0
CLS 安全性认证2026-05-05
点击查看完整报告 >

使用说明

核心用法

video-subtitles 是一款专注于音视频字幕生成的实用工具,通过命令行脚本实现全流程自动化处理。用户只需提供视频或音频文件,即可快速获得三种输出形式:纯文本转录稿、SRT 字幕文件,或内嵌硬字幕的视频文件。核心脚本 generate_srt.py 支持多语言自动检测,针对希伯来语采用 ivrit.ai 微调模型,英语则使用 OpenAI Whisper large-v3,确保转录准确性。关键功能包括 --srt 生成独立字幕文件、、--burn 烧录永久可见字幕、、--translate en 实现希伯来语到英语的自动翻译,以及 --embed 嵌入可开关的软字幕。

显著优点

该 Skill 的最大优势在于专业级的字幕质量与极简的操作体验。字幕采用电影工业标准:每行最多 42 字符、双行限制、1-7 秒自然时长、智能断句于标点处,配合白字黑边的经典样式,确保在任何平台(包括 WhatsApp 等压缩严重的社交应用)都清晰可读。双模型架构兼顾了小众语言(希伯来语)与主流语言的识别精度,翻译功能填补了跨语言内容生产的空白。依赖管理采用现代 Python 工具链 uv,模型文件约 3GB 但首次使用自动下载,大幅降低部署门槛。

潜在缺点与局限性

功能聚焦带来一定的场景限制:仅支持希伯来语和英语的双向处理,其他语种用户无法受益;翻译方向固定为希伯来语→英语,不可逆;字幕样式虽专业但不可自定义,无法满足品牌个性化需求。性能方面,Whisper large-v3 模型对计算资源要求较高,长视频处理耗时显著,且需预留约 3GB 磁盘空间。此外,硬字幕烧录依赖系统级 ffmpeg 安装,Windows 用户配置成本高于 macOS(brew install ffmpeg-full 一键解决)。临时文件使用固定路径 /tmp/subtitles_temp.srt,虽风险极低,但在多用户并发场景下存在理论上的竞争条件。

适合的目标群体

该工具精准服务于三类用户:社交媒体内容创作者(需要将希伯来语视频快速适配英语受众)、教育工作者(生成课程字幕与翻译)、以及影视后期制作中的字幕粗剪环节。特别适合 WhatsApp、Instagram、TikTok 等平台的短视频生产者——硬字幕烧录功能确保字幕在任意播放环境下强制可见,规避了平台软字幕兼容性问题。对于希伯来语内容生态的创作者而言,ivrit.ai 模型的专项优化使其成为该语种的最佳开源解决方案。

使用风险

常规风险主要集中在依赖稳定性与资源消耗:faster-whisper 库的版本迭代可能影响模型兼容性;ffmpeg 的完整版安装(非精简版)是烧录功能的硬性前提;大模型加载对内存和 GPU 有隐性要求,低配设备可能触发 OOM 或回退至慢速 CPU 推理。网络层面,模型首次下载需稳定连接 HuggingFace 等源站。数据隐私方面,转录过程完全本地执行,无云端上传,但用户需注意输入文件的本地存储安全。

安全解读

核心功能

video-subtitles 是一款基于 Python 的命令行工具,专注于将视频/音频内容转换为专业级字幕。其核心能力围绕三大场景设计:

1. 智能转写:针对希伯来语采用 ivrit.ai 微调模型(当前 Hebrew 语音识别最优解),英语使用 OpenAI Whisper large-v3,支持自动语言检测与模型选择
2. 多语言翻译:内置 Hebrew → English 翻译管道,打破语言壁垒

3. 字幕输出:提供三种输出模式——纯文本转录、SRT 软字幕文件、硬编码烧录视频(WhatsApp/社交媒体友好)

显著优点

  • 语言专业性突出:希伯来语识别采用社区公认最佳模型,非通用多语言方案的妥协方案
  • 电影级字幕体验:42 字符/行限制、1-7 秒自然分段、白字黑边底部对齐,符合专业影视字幕规范
  • 端到端工作流:从原始视频到可直接分享的烧录字幕视频,单条命令完成
  • 依赖管理现代化:使用 uv 作为包管理器,自动处理 Python 依赖

潜在局限与风险

  • 硬件门槛:~3GB 模型文件首次下载,对低带宽/有限存储用户不友好
  • 平台依赖:ffmpeg-full 需手动安装(尤其 Windows 用户配置成本较高)
  • 语言覆盖有限:核心优化仅覆盖 Hebrew/English,其他语言依赖 Whisper 通用能力
  • 维护者单一:T3 级个人开发者账号,长期维护稳定性存在不确定性

适合人群

  • 希伯来语内容创作者(Podcast、YouTube、教育视频)
  • 需要为 WhatsApp 制作硬字幕视频的社交媒体运营者
  • 批量处理访谈/会议录音的文字工作者

常规风险提示

  • 首次运行需从 HuggingFace/OpenAI 下载大体积模型,建议确认网络环境
  • 烧录字幕为不可逆操作,建议保留原始文件备份
  • 翻译质量受限于底层模型,关键内容建议人工校对

video-subtitles 内容

scripts文件夹
手动下载zip · 4.9 kB
generate_srt.pytext/plain
请选择文件