该 Skill 专为 macOS Apple Silicon 设备打造,实现 Telegram 端到端语音交互闭环。接收到 OGG 语音消息后,系统通过 yap 调用 Speech.framework 进行本地转录,AI 生成回复后利用 say+ffmpeg 合成 OGG 语音并发送。用户可通过 /audio on/off 切换语音或文本回复模式,偏好设置持久化存储于本地 JSON 文件。
核心优势在于隐私安全性与本地化处理能力。所有语音数据均在设备端通过 Apple Silicon 神经网络引擎处理,无需上传云端,特别适合敏感场景。作为 OpenClaw 官方技能,代码开源透明且通过 S 级安全认证,无 eval/exec 等危险操作。支持多语言转录(YAP_LOCALE 环境变量配置),且能自适应 macOS 系统区域设置,响应速度快无网络延迟。
平台限制是最显著的局限。该技能严格依赖 macOS Speech.framework 与 Apple Silicon 架构,在 Intel Mac 或 Linux/Windows 上无法运行。此外,依赖管理门槛较高,用户需自行安装配置 yap、ffmpeg 等外部工具并确保 PATH 正确,对非技术用户不够友好。语音识别准确率受限于本地模型,可能不及云端专业 ASR 服务,且对非英语语种支持有限。
适合注重隐私的 macOS 用户(如医疗、法律从业者)、Telegram 社区管理员及自动化工作流开发者。由于需要命令行环境配置,更适合具备技术基础的用户。不适用于需要跨平台部署或依赖高精度云端语音识别的场景。
使用风险主要包括依赖缺失导致的运行时失败,若 yap 或 ffmpeg 未安装或版本不兼容将直接报错。平台误判风险也需警惕,在非 Apple Silicon 设备运行会产生不可预期错误。虽然脚本启用 set -euo pipefail 严格模式,但文件路径权限问题(~/.openclaw/ 目录)或磁盘空间不足可能导致临时文件堆积。建议定期检查依赖状态并确保系统 TTS 语音包已下载。