Video Messages from your openclaw

🎥 虚拟形象唇同步视频消息生成

multimedia榜 #3

基于 VRM 虚拟形象生成唇同步视频消息,支持文字转语音后自动合成带表情动作的圆形视频笔记,适合个性化沟通与内容创作

收藏
13.1k
安装
3.1k
版本
0.1.2
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Video Message 是一个将文字或音频转换为虚拟形象视频的技能,通过 VRM 格式的 3D _avatar_ 实现唇形同步,输出为 Telegram 风格的圆形视频笔记。

典型工作流程
1. 从 TOOLS.md 读取配置(avatar 模型、背景色/图)

2. 如有文字输入,先调用 TTS 生成音频

3. 使用 avatarcam 工具将音频与虚拟形象合成视频

4. 通过 message 工具以 asVideoNote=true 发送圆形视频

配置灵活性:支持自定义 VRM 模型、纯色或图片背景,分辨率 384×384、30fps、H.264/AAC 编码,最长 60 秒。

显著优点

  • 个性化表达:相比纯文字或语音,虚拟形象视频更具亲和力和辨识度
  • 自动化流程:TTS → 视频生成 → 发送全流程自动化,用户只需输入文字
  • 平台兼容:原生支持 macOS/Windows,Linux 通过 xvfb 无头渲染
  • 标准输出:采用通用 MP4 格式和 Telegram video note 规范,兼容性好

潜在缺点与局限性

  • 依赖外部工具链:需同时安装 Node.js 包 @thewulf7/openclaw-avatarcam 和系统级依赖(ffmpeg、xvfb),配置复杂度较高
  • 性能开销:Electron 渲染 + FFmpeg 转码,处理时间约为音频长度的 1.5 倍
  • Linux 限制:必须配置无头显示环境(xvfb),且 GPU 警告虽无害但可能干扰日志
  • 版权与形象权:使用第三方 VRM 模型需注意授权协议,商业场景存在合规风险
  • 功能边界:仅支持圆形视频笔记格式,如需标准矩形视频需额外配置

适合人群

  • 需要为 Bot 添加人格化视频交互的开发者
  • 内容创作者寻求快速生成 avatar 口播视频
  • Telegram 生态运营者,希望发送更具吸引力的消息格式

常规风险

  • 临时文件管理:需在发送后手动清理 /tmp/video*.mp4,否则存在磁盘空间泄漏
  • TTS 内容审核:合成语音的内容需前置过滤,避免生成不当言论视频
  • 模型安全:VRM 文件可能包含恶意脚本,建议仅使用可信来源的模型
  • 隐私披露:视频生成过程中的音频临时文件可能残留敏感信息

Video Messages from your openclaw 内容

暂无文件树

手动下载zip · 2.2 kB
contentapplication/octet-stream
请选择文件