acestep-lyrics-transcription

🎵 AI 音频转录与字幕生成专家

基于 OpenAI Whisper/ElevenLabs Scribe API 的专业音频转录工具,可将歌曲精准转换为 LRC/SRT 格式时间戳歌词,支持多语言识别与词级精度,为音乐视频制作提供高效字幕生成方案。

收藏
9.2k
安装
2.4k
版本
v1.0.1
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

该 Skill 通过调用 OpenAI Whisper 或 ElevenLabs Scribe API,将音频文件转录为带时间戳的歌词文件。用户需先配置 API 密钥,然后通过命令行工具执行转录操作,支持输出 LRC、SRT 或 JSON 三种格式。特别针对音乐歌词场景优化,提供词级时间戳精度。转录完成后,系统强制要求人工校对步骤,以修正专有名词、同音词等常见识别错误,确保最终歌词准确性后方可用于 MV 渲染。

显著优点

首先,双引擎支持提供灵活性,用户可根据需求选择 OpenAI(whisper-1)或 ElevenLabs(scribe_v2),两者均支持多语言识别和词级时间戳,且 ElevenLabs 提供免费额度入门。其次,输出格式丰富,覆盖 LRC(歌词)、SRT(字幕)、JSON(数据)三种主流格式,适配不同应用场景。第三,安全设计完善,API 密钥本地存储且自动脱敏显示为 ***,脚本无危险函数,权限申请(Read/Write/Bash)精准匹配功能需求。第四,工作流程规范,强制要求转录后人工校对,有效避免 AI 幻觉导致的歌词错误影响后续制作。

潜在缺点或局限性

主要依赖外部商业 API,需用户自行承担调用费用(OpenAI 约 $0.006/分钟)并管理 API 密钥。音频文件必须上传至第三方服务器处理,存在数据隐私顾虑,不适合处理高度敏感或机密内容。转录准确性虽高但仍需人工校对,无法完全自动化,增加了人力成本。此外,功能仅限音频转录,不包含音频编辑或视频处理功能,且在网络连接不稳定时无法使用。

适合的目标群体

音乐视频制作人、字幕组工作者、音乐创作者、语言学习者以及需要将音频内容结构化的时间轴编辑者。特别适合需要为歌曲制作精准 LRC 歌词文件,或需要为多语言视频生成 SRT 字幕的内容创作者。也适用于研究人员处理音频访谈转录,但需注意数据隐私合规性,避免处理涉密内容。

使用风险

性能风险:转录速度取决于音频时长和 API 响应时间,长音频可能耗时较长且受网络波动影响。成本风险:持续使用会产生 API 调用费用,需监控使用量避免超额。依赖性风险:服务可用性完全依赖 OpenAI/ElevenLabs 的 API 稳定性,存在单点故障可能。数据隐私风险:音频内容需上传至第三方服务器,虽两家服务商均有隐私政策,但仍需谨慎处理敏感内容,避免上传机密音频。配置风险:错误的 API 密钥配置会导致服务无法使用,需妥善保管密钥避免泄露,建议定期轮换密钥。

安全解读

核心用法

acestep-lyrics-transcription 是一款专为 AI Agent 设计的音频转歌词技能。其核心用法是调用 OpenAI Whisper 或 ElevenLabs Scribe 这两大业界领先的语音识别 API,将用户提供的音频文件(如 MP3)转录为带有精确时间戳的歌词文件。它原生支持输出 LRC、SRT 或包含词级时间戳的 JSON 格式,可完美适配字幕制作、MV 渲染或歌词库构建等场景。

该技能的工作流程非常智能:它首先会自动检查用户是否已安全配置 API 密钥,避免无效调用;转录完成后,系统会强制执行一项关键的“后期校正”步骤,要求 Agent 结合原始歌词对转录文本进行人工或半自动校对,重点修正专有名词、谐音词或断词错误,确保最终产出的歌词精准无误。

显著优点

1. 双引擎驱动,灵活可靠:同时支持 OpenAI Whisper 与 ElevenLabs Scribe 两大 API,用户可根据成本、精度和账号情况自由切换。OpenAI 的 whisper-1 模型成本较低(约 0.006 美元/分钟),而 ElevenLabs 提供词级时间戳,各有优势。
2. 安全合规,顶级认证:根据 CLS-Certify v2.1.0 的严格安全审计,该技能获得 S+ 的最高安全评级。代码行为与声明完全一致,API 密钥仅存储于本地并使用掩码保护,绝无数据外泄、后门或上下文注入风险。

3. 强制校正,质量保障:独创的转录后校正流程是区别于普通转写工具的最大亮点。它不满足于原始机翻结果,而是强制引导 Agent 利用原始歌词进行比对,极大地提升了最终文本的准确率,对音乐作品的二次创作至关重要。

潜在缺点或局限性

1. 依赖外部付费服务:核心功能完全依赖 OpenAI 或 ElevenLabs 的云端 API,这意味着用户必须拥有相应的付费账户和有效的网络连接,存在服务变更或成本上涨的外部风险。
2. 无法离线运行:由于强依赖云 API,该技能在完全离线的环境下完全无法工作。

3. 转录误差不可避免:尽管有校正步骤,但其基础转录质量仍受限于第三方模型的性能。对于背景音嘈杂、演唱发音不标准或方言较重的音频,首次转录的误差率可能较高,需要投入更多的人工校正精力。

适合的目标群体

  • 音乐制作人与内容创作者:需要为原创歌曲快速生成 LRC 歌词文件以发布至音乐平台,或为音乐视频(MV)制作精准字幕。
  • 语言学习者:利用歌词转录来学习外语歌曲,比对精确的逐词时间戳。
  • 播客与视频剪辑师:虽然技能名为歌词转录,但其 SRT/JSON 格式输出同样适用于访谈、播客内容的字幕生成。
  • AI Agent 开发与运维人员:作为自动化工作流中的一环,用于处理音频数据,将其转换为可搜索、可索引的文本内容。

使用风险

1. 运行环境依赖:技能假设系统已预装 curl, jqpython3,若任一工具缺失,脚本将执行失败。
2. 低优先级安全加固项:安全报告中指出了两个极低风险的代码加固点——内联 Python 传参的潜在引号注入风险以及 jq 值注入接口。虽然当前应用场景下无现实危害,但提示开发者在未来功能扩展时若引入不可信输入,需注意防范。

3. API 成本消耗:用户必须注意 API 调用的费用消耗,尤其是在处理超长音频文件时。虽然单价不高,但滥用或缺乏监控可能导致意外的账单支出。

acestep-lyrics-transcription 内容

scripts文件夹
手动下载zip · 8.0 kB
acestep-lyrics-transcription.shtext/x-shellscript
请选择文件