核心用法
sag 是一款围绕 ElevenLabs 文本转语音 API 设计的文档型 Skill,旨在为用户带来类似 macOS say 命令的简洁交互体验。核心功能包括:
- 快速语音合成:
sag "Hello there"即可生成语音并本地播放 - 多模型支持:默认使用
eleven_v3(情感丰富),可选eleven_multilingual_v2(稳定)或eleven_flash_v2_5(快速) - 声音控制:支持通过
-v参数指定声音,内置Clawd默认声音配置 - 情感标签:v3 模型支持
[whispers]、[shouts]、[excited]等音频标签控制语气和表达 - 发音优化:提供
--normalize auto处理数字/单位,支持多语言偏置设置
显著优点
1. 零代码风险:纯 Markdown 文档型 Skill,无可执行文件,无动态代码
2. 知名开发者背书:作者 steipete(Peter Steinberger)为 PSPDFKit 创始人,iOS/macOS 开源社区权威人物
3. 交互友好:模仿 macOS 原生 say 命令设计,学习成本极低
4. 功能透明:API Key 需求明确声明,无隐藏数据收集
潜在局限
- 依赖外部服务:需自备 ElevenLabs API Key,产生额外成本
- 纯文档限制:Skill 本身不执行代码,仅提供命令参考,实际功能需安装
sagCLI - SSML 兼容性差异:v3 与 v2/v2.5 的 break 标签语法不统一
- 网络依赖:所有语音合成需联网调用 ElevenLabs API
适合人群
- 需要高质量 AI 语音合成的 macOS 用户
- 熟悉命令行、追求简洁工作流的开发者
- 已有 ElevenLabs 订阅的技术用户
常规风险
- API Key 管理:需妥善保管
ELEVENLABS_API_KEY,避免泄露 - 成本累积:ElevenLabs 按字符计费,长文本合成可能产生意外费用
- 内容合规:生成的语音需遵守 ElevenLabs 使用政策,禁止用于欺诈等场景