Automate Excel

📊 16合1 Excel 自动化处理工具箱

data-processing榜 #5

基于 openpyxl + pandas 的 Excel 自动化处理工具集,支持合并、筛选、拆分、去重、聚合、校验、VLOOKUP、模板填充等 16 项核心功能,适合批量报表处理与数据清洗场景。

收藏
11.8k
安装
5.5k
版本
0.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

本 skill 提供一套完整的 Excel 自动化处理方案,覆盖数据读取、转换、分析到输出的全生命周期。用户可通过 16 个独立脚本或组合调用实现复杂任务:

  • 数据整合merge_sheets.py 支持多文件/多 sheet 合并;merge_tables.py 实现双表按键对齐;vlookup_multi.py 完成多表级联查找
  • 格式转换excel_to_csv.pycsv_to_excel.py 双向转换,支持多 CSV → 多 sheet
  • 数据清洗filter_excel.py 支持 =/>/</~ 包含等条件筛选;deduplicate_excel.py 按列去重;split_excel.py 按行数或列值拆分
  • 分析聚合aggregate_excel.py 提供 sum/count/mean/min/max 分组统计
  • 格式控制format_columns_as_text.py 解决科学计数法问题;format_conditional.py 支持色阶/重复值等条件格式;template_fill.py 实现 {{占位符}} 批量填充
  • 质量保障validate_excel.py 校验必填列、重复键、空行;select_columns.py 精确控制字段

技术实现上,保留格式场景用 openpyxl 直接操作单元格,数据分析场景用 pandas 高效处理,二者通过 openpyxl 引擎无缝衔接。

显著优点

1. 开箱即用:16 个脚本覆盖 90% 日常 Excel 处理需求,无需从零编写代码
2. 格式友好:科学计数法、长身份证号等常见痛点有专门解决方案

3. 批量能力:原生支持目录级批量处理,自动记录错误继续执行

4. 生态成熟:基于 openpyxl(10 年维护)和 pandas(工业标准),依赖稳定

潜在局限

  • 旧格式限制:.xls 仅支持只读(xlrd 已停止维护 .xls 写入)
  • 性能边界:超百万行大数据量时 pandas 内存消耗较高,未提供流式处理方案
  • 公式依赖data_only=True 读取时仅获取公式计算值,无法保留公式本身
  • 复杂图表:不支持 Excel 图表、透视表等高级元素的自动化创建

适合人群

  • 财务/运营人员:定期合并多部门报表、生成汇总透视
  • 数据分析师:快速清洗调研数据、标准化字段格式
  • 开发者:在 CI/CD 或定时任务中集成 Excel 处理流水线
  • 行政人员:批量生成带个人信息的通知文档(模板填充场景)

常规风险

  • 数据覆盖:脚本默认可能覆盖同名输出文件,建议先用副本测试
  • 编码问题:CSV 读写需注意 Excel 中文环境的 GBK/UTF-8 编码陷阱
  • 内存溢出:处理 10 万行以上多文件合并时,建议分批次执行或增加内存
  • 格式丢失:pandas 写入会重置单元格格式,需格式保留时应使用 openpyxl 直接操作

Automate Excel 内容

暂无文件树

手动下载zip · 9.2 kB
contentapplication/octet-stream
请选择文件