Audio Reply

🔊 让AI开口说话,本地语音即时生成

multimedia榜 #5

为Claude Code添加TTS语音回复能力,支持朗读网页内容或生成对话式语音响应,基于本地MLX Audio模型实现。

收藏
11.7k
安装
2.7k
版本
0.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Audio Reply Skill 为 Claude Code 扩展了文本转语音(TTS)能力,通过两种主要模式工作:

1. 网页朗读模式:用户输入 "read it to me [URL]",系统抓取网页内容、提取正文、生成语音并播放。

2. 对话生成模式:用户输入 "talk to me [topic]" 或类似触发词("speak"/"say it"/"voice reply"),AI 生成自然口语化回复并转为语音。

技术实现上,该 Skill 调用 mlx-audio 的 TTS 模块,使用 chatterbox-turbo-fp16 模型(约500MB),通过 uv run 执行生成命令,支持 --play 自动播放和 --file_prefix 指定临时文件路径。

显著优点

  • 离线本地运行:基于 Apple MLX 框架,完全本地推理,无需云端 API,隐私性极佳
  • 触发灵活:多种自然语言指令均可激活,降低使用门槛
  • 自动清理机制:强制要求播放后删除临时音频文件,避免磁盘堆积
  • 语音自然度高:chatterbox-turbo 模型专为对话设计,支持语速调节(--speed)和表现力增强(--exaggeration)

潜在缺点与局限性

  • 仅支持 macOS:MLX 为 Apple Silicon 专属框架,Intel Mac 或 Linux/Windows 无法运行
  • 首次启动慢:模型需下载约500MB,冷启动有明显延迟
  • 语言支持有限:文档明确指出"英文效果最佳,其他语言可能不稳定"
  • 长文本需分段:建议单次不超过200词,长内容需手动切分
  • 依赖 uv 工具链:要求预装 uv 并配置好 Python 环境

适合人群

  • 需要长时间阅读网页内容但希望"听"而非"看"的用户
  • 视觉疲劳或 accessibility 需求用户
  • 偏好本地隐私计算、拒绝云端语音合成的用户
  • 已配置好 Apple Silicon Mac + uv 环境的 Claude Code 深度用户

常规风险

  • 临时文件残留风险:尽管文档强调删除,若进程异常中断可能导致 /tmp 目录堆积 wav 文件
  • 音频播放干扰--play 调用系统音频,在安静环境可能突兀出声
  • 模型偏见传递:TTS 模型可能继承训练数据中的口音/性别偏见
  • URL 内容风险:WebFetch 抓取任意 URL 可能引入恶意内容并被朗读,缺乏内容过滤机制
  • 依赖单点故障:uv 或 mlx-audio 版本更新可能破坏兼容性

Audio Reply 内容

手动下载zip · 2.1 kB
SKILL.mdtext/markdown
请选择文件