Audio Reply

🔊 AI 语音朗读,解放双眼双手

基于 MLX Audio TTS 的语音回复技能,可将网页内容朗读或生成对话式语音,适合解放双手获取信息。

收藏
12.3k
安装
2.7k
版本
1.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

Audio Reply 技能评估

核心用法

Audio Reply 是一款文本转语音(TTS)技能,提供两种主要工作模式:

1. 网页朗读模式:通过 "read it to me [URL]" 触发,抓取公开网页内容并转换为语音播报
2. 对话生成模式:通过 "talk to me [topic]" 触发,生成自然对话风格的语音回复

该技能基于 Apple MLX 框架的 chatterbox-turbo-fp16 模型,通过 uv 包管理器运行,首载约 500MB。

显著优点

  • 本地化执行:依托 MLX 在 Apple Silicon 本地运行,无需云端 API,隐私性较好
  • 自然音质:chatterbox-turbo 模型以对话自然度见长,支持情感调节 (--exaggeration)
  • 多场景触发:支持 "speak"、"say it"、"voice reply" 等多种口语化唤醒词
  • 自动清理:强制要求删除临时音频文件,减少本地残留

潜在缺点与局限

  • 平台限制:仅支持 macOS (darwin),依赖 Apple Silicon 的 MLX 生态
  • 语言偏向:官方提示非英语质量可能下降
  • 内容长度:长文本 (>500 词) 需主动摘要,可能影响信息完整性
  • 网络依赖:URL 抓取环节引入外部依赖,存在超时或反爬风险

适合人群

  • 需要通勤、家务时"听"内容的 macOS 用户
  • 偏好本地 AI、反感云端 TTS 隐私风险的用户
  • 视力辅助需求者

常规风险

  • URL 安全风险:虽配置多项安全护栏(私网 IP 拦截、凭证检测),但公开 URL 仍可能返回恶意内容
  • 音频历史残留:提示中指出客户端聊天记录可能保留音频引用,敏感内容需谨慎
  • 首载带宽:500MB 模型初次下载对网络环境有要求

安全建议

该技能的安全护栏设计较为周全,但 URL 抓取始终是攻击面。建议用户仅提供可信公开链接,避免输入含敏感参数的 URL。

Audio Reply 内容

手动下载zip · 4.3 kB
README.mdtext/markdown
请选择文件