核心用法
本 skill 提供一套完整的 Excel 自动化处理方案,覆盖数据读取、转换、分析到输出的全生命周期。用户可通过 16 个独立脚本或组合调用实现复杂任务:
- 数据整合:
merge_sheets.py支持多文件/多 sheet 合并;merge_tables.py实现双表按键对齐;vlookup_multi.py完成多表级联查找 - 格式转换:
excel_to_csv.py与csv_to_excel.py双向转换,支持多 CSV → 多 sheet - 数据清洗:
filter_excel.py支持 =/>/</~ 包含等条件筛选;deduplicate_excel.py按列去重;split_excel.py按行数或列值拆分 - 分析聚合:
aggregate_excel.py提供 sum/count/mean/min/max 分组统计 - 格式控制:
format_columns_as_text.py解决科学计数法问题;format_conditional.py支持色阶/重复值等条件格式;template_fill.py实现 {{占位符}} 批量填充 - 质量保障:
validate_excel.py校验必填列、重复键、空行;select_columns.py精确控制字段
技术实现上,保留格式场景用 openpyxl 直接操作单元格,数据分析场景用 pandas 高效处理,二者通过 openpyxl 引擎无缝衔接。
显著优点
1. 开箱即用:16 个脚本覆盖 90% 日常 Excel 处理需求,无需从零编写代码
2. 格式友好:科学计数法、长身份证号等常见痛点有专门解决方案
3. 批量能力:原生支持目录级批量处理,自动记录错误继续执行
4. 生态成熟:基于 openpyxl(10 年维护)和 pandas(工业标准),依赖稳定
潜在局限
- 旧格式限制:.xls 仅支持只读(xlrd 已停止维护 .xls 写入)
- 性能边界:超百万行大数据量时 pandas 内存消耗较高,未提供流式处理方案
- 公式依赖:
data_only=True读取时仅获取公式计算值,无法保留公式本身 - 复杂图表:不支持 Excel 图表、透视表等高级元素的自动化创建
适合人群
- 财务/运营人员:定期合并多部门报表、生成汇总透视
- 数据分析师:快速清洗调研数据、标准化字段格式
- 开发者:在 CI/CD 或定时任务中集成 Excel 处理流水线
- 行政人员:批量生成带个人信息的通知文档(模板填充场景)
常规风险
- 数据覆盖:脚本默认可能覆盖同名输出文件,建议先用副本测试
- 编码问题:CSV 读写需注意 Excel 中文环境的 GBK/UTF-8 编码陷阱
- 内存溢出:处理 10 万行以上多文件合并时,建议分批次执行或增加内存
- 格式丢失:pandas 写入会重置单元格格式,需格式保留时应使用 openpyxl 直接操作