使用说明

核心用法

sag 是一款封装 ElevenLabs API 的命令行文本转语音工具，主打 macOS 原生 say 命令的简洁交互体验。用户通过环境变量配置 API Key 后，可直接在终端输入文本生成语音，支持本地播放或导出音频文件。核心命令包括基础朗读 sag "文本"、指定语音角色 sag -v Roger "文本"、查看可用声线 sag voices 等。工具内置 v3/v2/v2.5 多模型切换，v3 版本支持 [whispers]]、]、[excited]]、]、[sings]] 等情感标签，v2 系列则兼容 SSML <break>> 标签实现精细停顿控制。

显著优点

1. 交互极简：复刻 macOS say 命令的直觉式用法，零学习成本上手
2. 音质领先：背靠 ElevenLabs 业界顶尖的神经网络语音合成技术
3. 角色丰富：内置多风格声线，支持科学家、耳语、歌唱等场景化表达
4. 模型灵活：v3 侧重表现力，v2.5 追求速度，可按场景切换
5. 生态成熟：通过 Homebrew 分发，安装维护便捷

潜在缺点与局限性

成本门槛：ElevenLabs API 为付费服务，高频使用需承担费用
平台绑定：主要面向 macOS 用户，跨平台体验可能受限
功能边界：SSML <phoneme>> 未暴露，精细发音控制不足；v3 不支持标准 SSML 语法
网络依赖：所有合成请求必须联网，无法离线使用
数据隐私：文本内容需上传至 ElevenLabs 服务器处理

适合的目标群体

开发者与技术人员：需要快速生成演示音频、语音通知或自动化语音内容
内容创作者：播客、视频制作中的配音辅助工具
无障碍开发者：为应用添加语音反馈功能
AI 助手构建者：为聊天机器人配置语音回复能力

使用风险

API 费用累积：未设置用量上限可能导致意外账单
Key 泄露风险：环境变量管理不当可能造成密钥暴露
外部依赖：sag 二进制与 ElevenLabs 服务的可用性直接影响功能
音频文件管理：生成文件需手动清理，长期运行可能占用磁盘空间

安全解读

核心功能

sag 是 ElevenLabs 文本转语音服务的命令行封装工具，以 macOS 原生 say 命令的交互风格为设计蓝本，让开发者能在终端快速生成并播放自然语音。

关键用法：

基础朗读：sag "文本内容"
指定音色：sag -v Roger "Hello" 或设置 ELEVENLABS_VOICE_ID
模型切换：eleven_v3(默认，表现力最强)、eleven_multilingual_v2(稳定)、eleven_flash_v2_5(极速)
v3 专有音频标签：[whispers]、[shouts]、[sings]、[laughs]、[sarcastic] 等情绪控制，以及 [pause] 类节奏标记
标准化处理：--normalize auto 自动优化数字/单位/URL 朗读

显著优点：

极低上手门槛，命令结构直观，say 用户无缝迁移
ElevenLabs v3 模型音质行业顶尖，情感表达细腻
音频标签系统无需 SSML 学习成本，自然语言嵌入控制
支持语音文件导出（-o 参数）供工作流集成

局限性与风险：

依赖 ElevenLabs 商业 API，需付费订阅，存在网络延迟与配额限制
v3 不支持标准 SSML <break>，与 v2/v2.5 语法不兼容，跨版本切换需改写标签
<phoneme> 音素标签未暴露，精细发音控制受限
语音合成涉及云端数据传输，敏感内容需谨慎

适合人群：开发者、内容创作者、无障碍需求用户，以及需要批量语音生成或终端自动化工作流的技术人群。

常规风险：API 密钥泄露（需妥善保管 ELEVENLABS_API_KEY）、云服务依赖性、成本随用量线性增长。

content-media productivity api automation development-engineering

sag 内容

手动下载zip · 1.5 kB

SKILL.mdtext/markdown

请选择文件