使用说明

核心用法

video-message 是一款将文本或音频转换为虚拟形象视频的技能。其工作流程为：接收用户文本→调用TTS生成语音→驱动VRM格式的3D虚拟形象进行唇形同步渲染→输出384×384像素的圆形视频笔记（Telegram video note格式）。

显著优点

个性化交互：通过VRM虚拟形象提供比纯语音更生动的沟通体验，适合品牌人格化、客服场景
格式优化：直接输出Telegram原生支持的视频笔记格式，无需用户手动调整
跨平台适配：自动检测运行环境，Linux下通过xvfb实现无头渲染，macOS/Windows原生支持
配置灵活：支持自定义VRM模型、背景色或背景图片，可打造差异化视觉风格
技术栈成熟：基于Electron+FFmpegpipeline，H.264/AAC编码保证兼容性

潜在缺点与局限性

性能开销：渲染耗时约为音频时长的1.5倍，20秒语音需30秒处理，实时性受限
依赖较重：需安装FFmpeg、Node.js运行时及系统级图形库（Linux需xvfb），Docker环境配置复杂
单一输出格式：强制输出384×384正方形视频，不适合需要横屏或高清场景
模型门槛：用户需自行准备VRM格式3D模型，对普通用户存在技术门槛
平台锁定：asVideoNote参数专为Telegram设计，迁移至其他平台需改造

适合人群

运营Telegram社群/频道的品牌方、KOL，需要虚拟形象增强互动
已搭建OpenClaw网关且追求差异化回复体验的技术团队
拥有现成VRM模型资产（如VTuber资源）的内容创作者

常规风险

隐私合规：VRM模型可能包含可识别特征，需确保形象版权或自主设计
渲染失败：无头环境GPU stall警告虽标注为安全忽略，但复杂场景可能导致进程卡死
临时文件管理：需主动清理/tmp/video*.mp4，磁盘空间不足时可能中断服务
依赖维护：openclaw-avatarcamnpm包为第三方生态组件，长期更新存在不确定性

安全解读

核心用法

Video Message 是一个纯配置型 Skill，用于生成带唇形同步的 VRM 虚拟形象视频消息。用户输入文本后，系统会自动：①调用 TTS 生成音频 → ②通过 avatarcam 渲染 384×384/30fps 的 MP4 视频（H.264+AAC）→ ③以 Telegram 视频消息（Video Note）形式发送。支持自定义 VRM 模型、背景色或图片，并内置 Linux 无头环境（xvfb）自动检测。

显著优点

零代码门槛：纯 Markdown 配置，无需编程即可启用
多平台适配：macOS/Windows/Linux/Docker 全覆盖，自动处理无头渲染
格式原生优化：输出 Telegram 圆形视频消息（Video Note），移动端体验友好
处理效率：约 1.5 倍实时处理速度，20 秒音频约 30 秒生成
合规满分：无用户数据收集，GDPR/CCPA 全通过

潜在局限

来源可信度：T3 级别（个人开发者/社区项目），npm 包 openclaw-avatarcam 源码未公开，存在供应链风险
外部依赖重：需全局安装 npm 包 + 系统级 ffmpeg + Linux 需 xvfb，安装链路较长
平台限制：VRM 渲染基于 Electron，Linux 需虚拟帧缓冲，GPU stall 警告常见但可忽略
无版本锁定：文档未指定依赖版本，可能因更新导致兼容性问题

适合人群

Telegram Bot 开发者，需要个性化视频回复功能
内容创作者，希望用虚拟形象替代真人出镜
技术爱好者，愿意承担 T3 来源风险以换取功能便利

常规风险

供应链攻击：npm 包被篡改可能导致代码执行，建议安装前验证包来源和下载量
sudo 指令误用：文档含 sudo apt-get 示例，直接复制粘贴存在权限风险
依赖维护：ffmpeg/avatarcam 版本迭代可能破坏功能，需定期更新验证

video-generation avatar vrm lip-sync tts telegram virtual-character ffmpeg

Video Messages from your openclaw 内容

手动下载zip · 2.3 kB

SKILL.mdtext/markdown

请选择文件