Sheetsmith

📊 Pandas 驱动的极速表格处理利器

developer榜 #3

基于 Pandas 的轻量级 CSV/Excel 处理工具,支持快速预览、统计摘要、条件过滤、列变换与格式互转,无需重复编写代码即可完成数据清洗。

收藏
14.8k
安装
3.2k
版本
0.1.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

Sheetsmith 是一个封装了 pandas 的 CLI 工具,专为快速处理电子表格而设计。用户只需将 CSV、TSV 或 Excel 文件置于工作目录,即可通过单一脚本完成从探索到转换的完整工作流。

探索类命令summary 展示行列数、数据类型、缺失值及首尾预览;describe 输出全量统计(含分位数、基数、频度);preview 提供快速表格切片查看。

编辑类命令filter 支持 pandas query 语法进行条件筛选,可导出子集;transform 允许通过 --expr 新增计算列、--rename 重命名、--drop 删除列,实现即时数据重构;convert 则在 CSV/TSV/Excel 三种格式间无损转换。

显著优点

  • 零代码门槛:将常见的 pandas 操作封装为语义化命令,分析师无需记忆 DataFrame API 即可完成 80% 的清洗任务
  • 安全覆写机制:默认写入新文件,仅当显式传入 --inplace 时才覆盖源文件,降低误操作风险
  • 格式统一接口:同一套 CLI 兼容三种主流表格格式,避免不同库(openpyxl、csv 模块)的切换成本
  • 依赖即系统级:pandas、openpyxl、tabulate 已通过 apt 预装,开箱即用

潜在缺点与局限性

  • 功能边界:面向快速探索与轻量清洗,复杂的多表 join、窗口函数、自定义聚合仍需原生 pandas 或 SQL
  • 表达式调试--expr--query 直接透传 pandas 语法,若表达式错误,报错信息为原生 traceback,对非技术用户不够友好
  • 性能天花板:全量数据加载至内存,超大型数据集(GB 级)可能触发 OOM,无分块读取或惰性求值机制
  • Excel 引擎依赖:仅列明 openpyxl/xlrd,未提及对 .xlsb、ODF 等新格式的支持

适合人群

数据分析师、产品经理、运维人员——需要频繁查看、筛选、轻量转换表格文件,但希望避免打开 Excel GUI 或编写 Jupyter Notebook 的繁琐场景。

常规风险

| 风险点 | 说明 |
|--------|------|
| 数据覆盖 | `--inplace` 会不可逆覆盖源文件,建议配合版本控制或备份 |
| 类型推断 | pandas 的自动类型推断可能将 ID 列识别为 int,导致前导零丢失 |
| 编码问题 | 非 UTF-8 编码的 CSV 可能读取异常,需提前确认文件编码 |
| 隐私泄露 | 处理含敏感信息的电子表格时,输出路径应避免共享目录 |

Sheetsmith 内容

references文件夹
scripts文件夹
手动下载zip · 6.5 kB
usage.mdtext/markdown
请选择文件