Name: ElevenLabs 语音合成指南
Author: steipete

使用说明

核心用法

sag 是一款围绕 ElevenLabs 文本转语音 API 设计的文档型 Skill，旨在为用户带来类似 macOS say 命令的简洁交互体验。核心功能包括：

快速语音合成：sag "Hello there" 即可生成语音并本地播放
多模型支持：默认使用 eleven_v3（情感丰富），可选 eleven_multilingual_v2（稳定）或 eleven_flash_v2_5（快速）
声音控制：支持通过 -v 参数指定声音，内置 Clawd 默认声音配置
情感标签：v3 模型支持 [whispers]、[shouts]、[excited] 等音频标签控制语气和表达
发音优化：提供 --normalize auto 处理数字/单位，支持多语言偏置设置

显著优点

1. 零代码风险：纯 Markdown 文档型 Skill，无可执行文件，无动态代码
2. 知名开发者背书：作者 steipete（Peter Steinberger）为 PSPDFKit 创始人，iOS/macOS 开源社区权威人物
3. 交互友好：模仿 macOS 原生 say 命令设计，学习成本极低
4. 功能透明：API Key 需求明确声明，无隐藏数据收集

潜在局限

依赖外部服务：需自备 ElevenLabs API Key，产生额外成本
纯文档限制：Skill 本身不执行代码，仅提供命令参考，实际功能需安装 sag CLI
SSML 兼容性差异：v3 与 v2/v2.5 的 break 标签语法不统一
网络依赖：所有语音合成需联网调用 ElevenLabs API

适合人群

需要高质量 AI 语音合成的 macOS 用户
熟悉命令行、追求简洁工作流的开发者
已有 ElevenLabs 订阅的技术用户

常规风险

API Key 管理：需妥善保管 ELEVENLABS_API_KEY，避免泄露
成本累积：ElevenLabs 按字符计费，长文本合成可能产生意外费用
内容合规：生成的语音需遵守 ElevenLabs 使用政策，禁止用于欺诈等场景

安全解读

核心用法

sag 是一个封装了 ElevenLabs 先进 TTS API 的命令行工具，采用 macOS say 命令的极简交互范式。用户通过环境变量配置 API Key 后，即可用单行命令生成自然语音：

sag "Hello there"                          # 基础语音合成
sag speak -v "Roger" "Hello"               # 指定语音角色
sag -v Clawd -o /tmp/output.mp3 "Text"     # 保存为文件

模型选择：默认 eleven_v3（表现力强）、稳定版 eleven_multilingual_v2、极速版 eleven_flash_v2_5。

高级控制：

v3 专用音频标签：[whispers]、[shouts]、[sings]、[excited]、[sarcastic] 等情感标记
节奏控制：[pause]、[short pause]、[long pause] 替代 SSML
文本规范化：--normalize auto 处理数字/单位/URL
语言引导：--lang en|de|fr 优化多语言发音

显著优点

1. 极致简洁：单行命令即可完成高质量语音合成，学习成本极低
2. 情感丰富：v3 模型的音频标签支持让 AI 语音具备细腻的情绪表达能力
3. 专业集成：与 ElevenLabs 商业级 API 深度绑定，音质领先开源方案
4. 灵活输出：支持直接播放、文件保存、以及作为 Chat 语音回复的自动化工作流

潜在局限

商业依赖：完全依赖 ElevenLabs 付费 API，无法离线使用
平台限制：主要为 macOS 优化（Homebrew 分发），跨平台需自行构建
SSML 兼容性：v3 不支持标准 SSML <break>，需使用专有标签语法
语音定制受限：无法本地微调模型，仅能用 ElevenLabs 预设声库

适合人群

需要快速原型语音内容的开发者、播客创作者、游戏开发者
追求自然语音质量、愿为 API 付费的专业用户
熟悉命令行、偏好脚本自动化工作流的技术人员

常规风险

API Key 管理：ELEVENLABS_API_KEY 需妥善保管，避免硬编码提交至版本控制
成本控制：按字符计费，长文本批量处理时需注意用量监控
临时文件：示例中 /tmp 路径需定期清理，敏感内容建议自定义安全路径
服务可用性：依赖 ElevenLabs 云服务，存在网络延迟与服务商稳定性风险

text-to-speech elevenlabs voice-synthesis cli documentation

Sag 内容

手动下载zip · 1.5 kB

SKILL.mdtext/markdown

请选择文件