使用说明

核心用法

Video Message 是一个将文字或音频转换为虚拟形象视频的技能，通过 VRM 格式的 3D _avatar_ 实现唇形同步，输出为 Telegram 风格的圆形视频笔记。

典型工作流程：
1. 从 TOOLS.md 读取配置（avatar 模型、背景色/图）
2. 如有文字输入，先调用 TTS 生成音频
3. 使用 avatarcam 工具将音频与虚拟形象合成视频
4. 通过 message 工具以 asVideoNote=true 发送圆形视频

配置灵活性：支持自定义 VRM 模型、纯色或图片背景，分辨率 384×384、30fps、H.264/AAC 编码，最长 60 秒。

显著优点

个性化表达：相比纯文字或语音，虚拟形象视频更具亲和力和辨识度
自动化流程：TTS → 视频生成 → 发送全流程自动化，用户只需输入文字
平台兼容：原生支持 macOS/Windows，Linux 通过 xvfb 无头渲染
标准输出：采用通用 MP4 格式和 Telegram video note 规范，兼容性好

潜在缺点与局限性

依赖外部工具链：需同时安装 Node.js 包 @thewulf7/openclaw-avatarcam 和系统级依赖（ffmpeg、xvfb），配置复杂度较高
性能开销：Electron 渲染 + FFmpeg 转码，处理时间约为音频长度的 1.5 倍
Linux 限制：必须配置无头显示环境（xvfb），且 GPU 警告虽无害但可能干扰日志
版权与形象权：使用第三方 VRM 模型需注意授权协议，商业场景存在合规风险
功能边界：仅支持圆形视频笔记格式，如需标准矩形视频需额外配置

适合人群

需要为 Bot 添加人格化视频交互的开发者
内容创作者寻求快速生成 avatar 口播视频
Telegram 生态运营者，希望发送更具吸引力的消息格式

常规风险

临时文件管理：需在发送后手动清理 /tmp/video*.mp4，否则存在磁盘空间泄漏
TTS 内容审核：合成语音的内容需前置过滤，避免生成不当言论视频
模型安全：VRM 文件可能包含恶意脚本，建议仅使用可信来源的模型
隐私披露：视频生成过程中的音频临时文件可能残留敏感信息

安全解读

核心用法

Video Message 是一款文档型 Skill，用于生成基于 VRM 虚拟形象的口型同步视频消息。用户输入文本后，系统先通过 TTS 生成音频，再调用外部工具 avatarcam 将音频与虚拟形象结合，最终输出 384×384 像素的圆形视频（Telegram video note 格式）。支持自定义 .vrm 形象文件、纯色或图片背景，配置通过 TOOLS.md 管理。

显著优点

零代码执行：纯 Markdown 文档 Skill，无内置可执行代码块，依赖外部成熟工具链（ffmpeg、Electron 渲染引擎），降低注入风险
本地化渲染：音频、视频处理均在本地完成，无网络上传，隐私可控
平台兼容广：支持 macOS、Linux（xvfb 无头模式）、Windows 及 Docker 容器环境
输出格式精准：自动适配 Telegram video note 圆形格式，无需二次转码

潜在局限

外部依赖重：需预装 Node.js、ffmpeg 及 xvfb（Linux），安装链路较长
T3 来源级别：由个人开发者 thewulf7 维护，缺乏企业级 SLA 与长期维护承诺
性能开销：1.5 倍实时渲染速度（20 秒音频约 30 秒处理），高并发场景受限
隐私声明缺失：文档未明确说明数据处理范围，虽实际无上传行为，但透明度不足

适合人群

Telegram 重度用户，需个性化视频消息回复的自动化工作流
内容创作者，批量生成虚拟形象口播视频的轻量化方案
开发者已具备 Node.js/ffmpeg 环境，追求快速原型验证

常规风险

依赖工具风险：avatarcam npm 包与 ffmpeg 的版本更新可能引入兼容性断裂
GPU stall 警告：无头渲染时出现的 GPU 警告虽无害，但可能误导用户
临时文件管理：需手动清理 /tmp/video*.mp4，否则存在磁盘堆积风险

video-generation avatar tts vrm telegram lip-sync electron ffmpeg

Video Messages from your openclaw 内容

手动下载zip · 2.2 kB

SKILL.mdtext/markdown

请选择文件