核心用法
video-message 是一个将文字/语音转换为虚拟形象视频的智能技能,支持VRM 3D角色模型与实时唇形同步。用户只需提供文本或音频,系统即可自动生成带虚拟主播的MP4视频,并以Telegram视频笔记(圆形格式)发送。
主要功能路径:
- 文本输入 → TTS生成 → 虚拟形象渲染 → 视频编码 → 发送
- 音频输入 → 直接驱动唇形 → 视频渲染 → 发送
支持自定义背景(纯色/图片)、更换VRM角色模型、调整输出参数。技术栈基于Electron+Three.js进行3D渲染,FFmpeg负责后期处理。
显著优点
| 优势 | 说明 |
|------|------|
| **沉浸式交互** | 虚拟形象+唇同步突破纯文字/语音的单调感,提升信息传达的亲和力 |
| **高度可定制** | 支持任意VRM模型(可导入自制角色),背景灵活配置 |
| **格式优化** | 默认输出Telegram视频笔记格式(384×384圆形),社交平台原生适配 |
| **自动化流程** | TTS→渲染→发送全自动,无需人工介入 |
| **跨平台** | 支持macOS/Linux/Windows/Docker,自动检测无头环境并启用Xvfb |
潜在缺点与局限
- 性能门槛:需要Electron+GPU渲染,低配机器生成20秒视频约需30秒
- 依赖复杂:需同时安装Node.js、FFmpeg、Xvfb(Linux)等系统组件
- 时长限制:最大60秒,不适合长内容
- 角色生态:VRM模型需自行准备,无内置角色库
- 表情单一:当前仅支持唇形同步,无面部表情/肢体动画
适合人群
- 社群运营者:为Bot添加人格化形象,提升用户粘性
- 内容创作者:快速生成虚拟主播短视频
- 开发者:需要程序化视频生成的自动化场景
- 品牌方:用定制化虚拟形象统一客服/营销视觉
常规风险
| 风险类型 | 说明 | 缓解建议 |
|----------|------|---------|
| **依赖安全风险** | npm包`@thewulf7/openclaw-avatarcam`为第三方维护,供应链攻击面存在 | 锁定版本、审计依赖、沙箱运行 |
| **隐私泄露** | TTS服务可能将文本发送至外部API | 确认TTS provider的隐私政策,敏感内容建议本地TTS |
| **资源滥用** | 视频生成消耗CPU/GPU,可能被恶意调用导致DoS | 添加速率限制、队列控制 |
| **版权争议** | 使用第三方VRM模型可能涉及形象版权 | 使用自有创作或CC0授权模型 |
> 安全等级说明:本技能涉及多个外部依赖(npm包、系统二进制文件)和文件系统操作,但无网络监听、特权提升等高危行为,评定为A级。建议生产环境容器化部署并限制资源配额。