使用说明

核心用法

该 Skill 通过调用 OpenAI Whisper 或 ElevenLabs Scribe API，将音频文件转录为带时间戳的歌词文件。用户需先配置 API 密钥，然后通过命令行工具执行转录操作，支持输出 LRC、SRT 或 JSON 三种格式。特别针对音乐歌词场景优化，提供词级时间戳精度。转录完成后，系统强制要求人工校对步骤，以修正专有名词、同音词等常见识别错误，确保最终歌词准确性后方可用于 MV 渲染。

显著优点

首先，双引擎支持提供灵活性，用户可根据需求选择 OpenAI（whisper-1）或 ElevenLabs（scribe_v2），两者均支持多语言识别和词级时间戳，且 ElevenLabs 提供免费额度入门。其次，输出格式丰富，覆盖 LRC（歌词）、SRT（字幕）、JSON（数据）三种主流格式，适配不同应用场景。第三，安全设计完善，API 密钥本地存储且自动脱敏显示为 ***，脚本无危险函数，权限申请（Read/Write/Bash）精准匹配功能需求。第四，工作流程规范，强制要求转录后人工校对，有效避免 AI 幻觉导致的歌词错误影响后续制作。

潜在缺点或局限性

主要依赖外部商业 API，需用户自行承担调用费用（OpenAI 约 $0.006/分钟）并管理 API 密钥。音频文件必须上传至第三方服务器处理，存在数据隐私顾虑，不适合处理高度敏感或机密内容。转录准确性虽高但仍需人工校对，无法完全自动化，增加了人力成本。此外，功能仅限音频转录，不包含音频编辑或视频处理功能，且在网络连接不稳定时无法使用。

适合的目标群体

音乐视频制作人、字幕组工作者、音乐创作者、语言学习者以及需要将音频内容结构化的时间轴编辑者。特别适合需要为歌曲制作精准 LRC 歌词文件，或需要为多语言视频生成 SRT 字幕的内容创作者。也适用于研究人员处理音频访谈转录，但需注意数据隐私合规性，避免处理涉密内容。

使用风险

性能风险：转录速度取决于音频时长和 API 响应时间，长音频可能耗时较长且受网络波动影响。成本风险：持续使用会产生 API 调用费用，需监控使用量避免超额。依赖性风险：服务可用性完全依赖 OpenAI/ElevenLabs 的 API 稳定性，存在单点故障可能。数据隐私风险：音频内容需上传至第三方服务器，虽两家服务商均有隐私政策，但仍需谨慎处理敏感内容，避免上传机密音频。配置风险：错误的 API 密钥配置会导致服务无法使用，需妥善保管密钥避免泄露，建议定期轮换密钥。

安全解读

核心用法

acestep-lyrics-transcription 是一款专为 AI Agent 设计的音频转歌词技能。其核心用法是调用 OpenAI Whisper 或 ElevenLabs Scribe 这两大业界领先的语音识别 API，将用户提供的音频文件（如 MP3）转录为带有精确时间戳的歌词文件。它原生支持输出 LRC、SRT 或包含词级时间戳的 JSON 格式，可完美适配字幕制作、MV 渲染或歌词库构建等场景。

该技能的工作流程非常智能：它首先会自动检查用户是否已安全配置 API 密钥，避免无效调用；转录完成后，系统会强制执行一项关键的“后期校正”步骤，要求 Agent 结合原始歌词对转录文本进行人工或半自动校对，重点修正专有名词、谐音词或断词错误，确保最终产出的歌词精准无误。

显著优点

1. 双引擎驱动，灵活可靠：同时支持 OpenAI Whisper 与 ElevenLabs Scribe 两大 API，用户可根据成本、精度和账号情况自由切换。OpenAI 的 whisper-1 模型成本较低（约 0.006 美元/分钟），而 ElevenLabs 提供词级时间戳，各有优势。
2. 安全合规，顶级认证：根据 CLS-Certify v2.1.0 的严格安全审计，该技能获得 S+ 的最高安全评级。代码行为与声明完全一致，API 密钥仅存储于本地并使用掩码保护，绝无数据外泄、后门或上下文注入风险。
3. 强制校正，质量保障：独创的转录后校正流程是区别于普通转写工具的最大亮点。它不满足于原始机翻结果，而是强制引导 Agent 利用原始歌词进行比对，极大地提升了最终文本的准确率，对音乐作品的二次创作至关重要。

潜在缺点或局限性

1. 依赖外部付费服务：核心功能完全依赖 OpenAI 或 ElevenLabs 的云端 API，这意味着用户必须拥有相应的付费账户和有效的网络连接，存在服务变更或成本上涨的外部风险。
2. 无法离线运行：由于强依赖云 API，该技能在完全离线的环境下完全无法工作。
3. 转录误差不可避免：尽管有校正步骤，但其基础转录质量仍受限于第三方模型的性能。对于背景音嘈杂、演唱发音不标准或方言较重的音频，首次转录的误差率可能较高，需要投入更多的人工校正精力。

适合的目标群体

音乐制作人与内容创作者：需要为原创歌曲快速生成 LRC 歌词文件以发布至音乐平台，或为音乐视频（MV）制作精准字幕。
语言学习者：利用歌词转录来学习外语歌曲，比对精确的逐词时间戳。
播客与视频剪辑师：虽然技能名为歌词转录，但其 SRT/JSON 格式输出同样适用于访谈、播客内容的字幕生成。
AI Agent 开发与运维人员：作为自动化工作流中的一环，用于处理音频数据，将其转换为可搜索、可索引的文本内容。

使用风险

1. 运行环境依赖：技能假设系统已预装 curl, jq 和 python3，若任一工具缺失，脚本将执行失败。
2. 低优先级安全加固项：安全报告中指出了两个极低风险的代码加固点——内联 Python 传参的潜在引号注入风险以及 jq 值注入接口。虽然当前应用场景下无现实危害，但提示开发者在未来功能扩展时若引入不可信输入，需注意防范。
3. API 成本消耗：用户必须注意 API 调用的费用消耗，尤其是在处理超长音频文件时。虽然单价不高，但滥用或缺乏监控可能导致意外的账单支出。

content-media transcription api productivity audio-processing

acestep-lyrics-transcription 内容

scripts文件夹

手动下载zip · 8.0 kB

acestep-lyrics-transcription.shtext/x-shellscript

请选择文件