Docx Cn

📄 专业 Word 文档自动化处理方案

基于 docx-js 与 Python 工具链的专业 Word 文档创建、编辑与格式处理能力,支持复杂表格、修订追踪与元数据管理。

收藏
23.1k
安装
5.8k
版本
1.0.1
CLS 安全性认证2026-05-05
点击查看完整报告 >

使用说明

核心用法

docx-cn 是一套完整的 Word 文档处理技能,分为两大工作模式:

1. 创建新文档(docx-js)

使用 Node.js 的 docx 库生成 .docx 文件,支持:

  • 精准格式控制:显式设置页面尺寸(US Letter 12240×15840 DXA 或 A4),避免默认 A4 导致的兼容性问题
  • 专业排版:通过覆盖内置样式(Heading1/Heading2)实现自定义标题层级,支持目录自动生成
  • 复杂表格:强制使用 DXA 单位(禁用百分比),需同时设置 columnWidths 和单元格 width,确保 Google Docs 等平台的兼容性
  • 图片插入:必须指定 type 参数(png/jpg 等),支持尺寸变换与无障碍文本
  • 修订追踪:通过 Paragraph 包裹 PageBreak,避免无效 XML

2. 编辑现有文档(解包-编辑-打包)

采用「解包 → XML 编辑 → 打包」三步骤:

  • 解包unpack.py 提取 XML、合并相邻文本运行、转换智能引号为 XML 实体
  • 编辑:直接修改 word/document.xml,支持修订标记(<w:ins>/<w:del>)、评论添加、图片嵌入
  • 打包pack.py 验证并修复常见问题(如 durableId 溢出、xml:space 缺失),生成最终文档

显著优点

  • 技术深度:覆盖 docx 格式底层 XML 结构,支持细粒度控制(如 RSID 管理、关系文件维护)
  • 跨平台兼容:针对 Google Docs、LibreOffice 等常见平台的渲染差异提供规避方案
  • 修订追踪完整:支持多作者协作场景,可接受/拒绝他人修订,正确处理段落级删除
  • 自动化工具链:Python 脚本封装复杂操作(解包、验证、评论管理),降低手工 XML 编辑错误率

潜在缺点与局限性

  • 学习曲线陡峭:需理解 Office Open XML 规范(OOXML),包括 DXA/EMU 单位换算、元素顺序约束等
  • 工具链依赖重:需同时配置 Node.js、Python、LibreOffice、Poppler 等环境
  • 手动编辑风险:XML 编辑错误可能导致文档损坏,虽有自动修复但无法覆盖所有 schema 违规
  • Legacy 格式限制.doc 文件需先转换为 .docx,无法直接编辑

适合人群

  • 法务/合规团队:需批量生成带修订追踪的标准合同文本
  • 出版/排版专业人员:需要精确控制页面布局、字体、目录结构的场景
  • 自动化办公开发者:将文档生成集成到 CI/CD 或业务系统的工程师
  • 学术/研究人员:处理带复杂表格、交叉引用、图表的大型报告

常规风险

  • 格式漂移风险:不同 Word 版本(Windows/Mac/在线版)对复杂表格、文本框的渲染存在差异
  • 元数据泄露:解包编辑可能暴露作者信息、修订历史,需在敏感场景下清理 docProps/core.xml
  • 脚本注入隐患:若用户输入直接进入 XML 内容,需防范 XXE 或恶意实体注入(本技能未显式提及输入过滤机制)
  • 依赖项维护:docx-js 版本升级可能导致 API 变更,需锁定版本并验证输出

安全解读

核心用法

docx-cn 是一套专业的 Word 文档处理解决方案,采用双模式架构:

1. 创建新文档:基于 docx-js (npm) 通过 JavaScript API 生成 .docx 文件,支持段落、表格、图片、页眉页脚、目录等完整功能
2. 编辑现有文档:Unpack-Pack 工作流——解压为 XML → 直接编辑 → 重新打包,支持修订追踪、批注、智能引号等高级特性

关键操作包括:使用 pandoc 提取文本、LibreOffice 转换格式(DOC→DOCX、DOCX→PDF)、Python 脚本处理 XML 解包/验证/打包。

显著优点

  • 官方权威维护:Anthropic 官方 skills 仓库来源,T1 级可信,开源可审计
  • 功能覆盖全面:从简单文本到复杂表格、图片、目录、修订追踪、批注回复,完整覆盖 Office 工作流
  • 专业排版细节:强制 US Letter 页面尺寸(默认 A4 易出错)、DXA 单位精确控制、智能引号 XML 实体转换、表格双宽度设定
  • 安全 XML 处理:使用 defusedxml 防御 XXE 攻击,避免危险函数(eval/exec/system)
  • 跨平台兼容:LibreOffice 沙箱适配、socket shim 动态编译解决受限环境限制

潜在局限

  • 技术门槛较高:需同时掌握 JavaScript(docx-js API)、Python(脚本工具)、OOXML 结构知识
  • 外部依赖较重:依赖 pandoc、Node.js/npm、LibreOffice、Poppler 等工具链,环境配置复杂
  • 手动 XML 编辑风险:直接修改 XML 需严格遵循 Schema 顺序、RSID 格式、命名空间规则,易生成无效文档
  • Landscape 方向反直觉:docx-js 内部自动交换宽高,需以"肖像尺寸传入"才能正确生成横向页面

适合人群

  • 需批量生成标准化合同/报告/标书的法务、行政、商务人员
  • 开发文档自动化系统的技术团队
  • 需在 CI/CD 中集成文档生成/转换的 DevOps 工程师
  • 追求版本控制友好(XML 可读)替代二进制 .docx 的高级用户

常规风险

  • 供应链风险:LibreOffice/npm 依赖需保持更新
  • OOXML 解析漏洞:建议沙箱运行处理不受信任文档
  • XML 编辑失误:直接修改 XML 前务必验证(validate.py),避免格式损坏
  • 宏代码审查:accept_changes.py 内含 StarBasic 宏,使用前建议 review

Docx Cn 内容

scripts文件夹
office文件夹
helpers文件夹
validators文件夹
templates文件夹
手动下载zip · 40.0 kB
__init__.pytext/plain
请选择文件