核心用法
video-message 是一款将文本或音频转换为虚拟形象视频的技能。其工作流程为:接收用户文本→调用TTS生成语音→驱动VRM格式的3D虚拟形象进行唇形同步渲染→输出384×384像素的圆形视频笔记(Telegram video note格式)。
显著优点
- 个性化交互:通过VRM虚拟形象提供比纯语音更生动的沟通体验,适合品牌人格化、客服场景
- 格式优化:直接输出Telegram原生支持的视频笔记格式,无需用户手动调整
- 跨平台适配:自动检测运行环境,Linux下通过xvfb实现无头渲染,macOS/Windows原生支持
- 配置灵活:支持自定义VRM模型、背景色或背景图片,可打造差异化视觉风格
- 技术栈成熟:基于Electron+FFmpegpipeline,H.264/AAC编码保证兼容性
潜在缺点与局限性
- 性能开销:渲染耗时约为音频时长的1.5倍,20秒语音需30秒处理,实时性受限
- 依赖较重:需安装FFmpeg、Node.js运行时及系统级图形库(Linux需xvfb),Docker环境配置复杂
- 单一输出格式:强制输出384×384正方形视频,不适合需要横屏或高清场景
- 模型门槛:用户需自行准备VRM格式3D模型,对普通用户存在技术门槛
- 平台锁定:
asVideoNote参数专为Telegram设计,迁移至其他平台需改造
适合人群
- 运营Telegram社群/频道的品牌方、KOL,需要虚拟形象增强互动
- 已搭建OpenClaw网关且追求差异化回复体验的技术团队
- 拥有现成VRM模型资产(如VTuber资源)的内容创作者
常规风险
- 隐私合规:VRM模型可能包含可识别特征,需确保形象版权或自主设计
- 渲染失败:无头环境GPU stall警告虽标注为安全忽略,但复杂场景可能导致进程卡死
- 临时文件管理:需主动清理
/tmp/video*.mp4,磁盘空间不足时可能中断服务 - 依赖维护:
openclaw-avatarcamnpm包为第三方生态组件,长期更新存在不确定性