skills/matrixy/Audio Reply

Audio Reply

🔊 让AI开口说话，本地语音即时生成

multimedia榜 #5

为Claude Code添加TTS语音回复能力，支持朗读网页内容或生成对话式语音响应，基于本地MLX Audio模型实现。

收藏

11.7k

安装

2.7k

版本

0.1.0

CLS 安全扫描中

预计需要 3 分钟...

使用说明

核心用法

Audio Reply Skill 为 Claude Code 扩展了文本转语音（TTS）能力，通过两种主要模式工作：

1. 网页朗读模式：用户输入 "read it to me [URL]"，系统抓取网页内容、提取正文、生成语音并播放。

2. 对话生成模式：用户输入 "talk to me [topic]" 或类似触发词（"speak"/"say it"/"voice reply"），AI 生成自然口语化回复并转为语音。

技术实现上，该 Skill 调用 mlx-audio 的 TTS 模块，使用 chatterbox-turbo-fp16 模型（约500MB），通过 uv run 执行生成命令，支持 --play 自动播放和 --file_prefix 指定临时文件路径。

显著优点

离线本地运行：基于 Apple MLX 框架，完全本地推理，无需云端 API，隐私性极佳
触发灵活：多种自然语言指令均可激活，降低使用门槛
自动清理机制：强制要求播放后删除临时音频文件，避免磁盘堆积
语音自然度高：chatterbox-turbo 模型专为对话设计，支持语速调节（--speed）和表现力增强（--exaggeration）

潜在缺点与局限性

仅支持 macOS：MLX 为 Apple Silicon 专属框架，Intel Mac 或 Linux/Windows 无法运行
首次启动慢：模型需下载约500MB，冷启动有明显延迟
语言支持有限：文档明确指出"英文效果最佳，其他语言可能不稳定"
长文本需分段：建议单次不超过200词，长内容需手动切分
依赖 uv 工具链：要求预装 uv 并配置好 Python 环境

适合人群

需要长时间阅读网页内容但希望"听"而非"看"的用户
视觉疲劳或 accessibility 需求用户
偏好本地隐私计算、拒绝云端语音合成的用户
已配置好 Apple Silicon Mac + uv 环境的 Claude Code 深度用户

常规风险

临时文件残留风险：尽管文档强调删除，若进程异常中断可能导致 /tmp 目录堆积 wav 文件
音频播放干扰：--play 调用系统音频，在安静环境可能突兀出声
模型偏见传递：TTS 模型可能继承训练数据中的口音/性别偏见
URL 内容风险：WebFetch 抓取任意 URL 可能引入恶意内容并被朗读，缺乏内容过滤机制
依赖单点故障：uv 或 mlx-audio 版本更新可能破坏兼容性

tts audio voice-synthesis accessibility local-ml mlx apple-silicon

Audio Reply 内容

手动下载zip · 2.1 kB

SKILL.mdtext/markdown

请选择文件