核心用法
本 skill 提供完整的 Excel 自动化处理能力,涵盖从基础读写到复杂数据转换的 15+ 种场景。核心使用方式有两种:
1. 脚本直接调用:通过 scripts/ 目录下的独立 Python 脚本执行特定任务,如 merge_sheets.py 合并多表、filter_excel.py 条件筛选、vlookup_multi.py 多表关联等。每个脚本支持 --help 查看参数,可通过命令行或代码调用。
2. 编程 API:基于 openpyxl(保留格式、公式、多工作表)和 pandas(数据分析、透视、合并)双引擎,支持单元格级操作与批量数据处理。提供读取(整表/区域/多 sheet)、写入(新建/追加/多表)、格式保留等完整能力。
显著优点
- 场景覆盖全面:从简单的 CSV ↔ Excel 转换,到复杂的模板填充、条件格式、多表 VLOOKUP,几乎涵盖日常 Excel 处理的所有需求。
- 双引擎设计:
openpyxl保证格式与兼容性,pandas提供高效数据分析能力,两者互补。 - 脚本化 workflow:预置 15+ 个独立脚本,无需重复造轮子,参数清晰、即拿即用。
- 批量处理能力:支持目录级多文件处理,内置错误捕获与日志记录,适合生产环境。
潜在缺点与局限性
- 格式保留有限:
pandas写入时会丢失原有单元格格式、图表、宏等,需用openpyxl单独处理格式。 - 旧格式支持弱:
.xls仅支持读取(依赖xlrd),无法写入。 - 大文件性能:超大型 Excel(百万行级)可能内存不足,需分块处理或改用
write_only模式。 - 条件格式与图表:当前仅支持基础条件格式,复杂图表、数据透视表需手动操作。
适合人群
- 数据分析师、财务人员:处理定期报表、多表合并、数据清洗。
- 开发者/自动化工程师:构建数据处理 pipeline、ETL 流程。
- 办公效率提升者:替代重复性手工 Excel 操作。
常规风险
- 数据覆盖风险:输出文件默认覆盖,需注意备份。
- 编码问题:CSV 处理时需明确指定编码(如
utf-8-sig防 Excel 中文乱码)。 - 科学计数法:长数字(身份证号、订单号)需显式设为文本格式,否则被 Excel 自动转换。
- 公式计算:
data_only=True读取时获取的是缓存值而非公式本身。