使用说明

核心用法

File-Deduplicator 是一款面向存储管理的重复文件清理工具，提供三层次的检测机制：内容哈希（MD5） 精确识别完全相同的文件，大小比对 快速筛选相似媒体文件，名称相似度 捕获版本迭代产生的重复文档。支持递归目录扫描、排除模式配置（如 .git、node_modules），以及白名单保护关键目录。

主要工作流程为：扫描 → 分析 → 预览/执行。findDuplicates 用于发现重复，removeDuplicates 执行清理，两者均支持 dryRun 模式先行验证。清理策略灵活，可保留最新/最旧/最小/最大文件，支持直接删除、移至归档或生成操作日志备查。

显著优点

检测精准：内容哈希确保 100% 精确匹配，不受重命名影响；三种方法互补覆盖不同场景
操作安全：默认非自动确认、大小阈值保护（默认 10MB）、归档替代删除、完整操作日志支持有限恢复
性能可控：批量处理（1000 文件/批次）、哈希缓存优化，百万级文件峰值内存约 200MB
配置灵活：JSON 配置持久化偏好，排除模式与目录白名单防止误扫系统关键区域

潜在局限

哈希局限：MD5 存在理论碰撞风险（实际文件场景概率极低），且无法检测内容相似但非完全一致的文件（如不同压缩率图片、轻微编辑版本）
媒体文件效率：大体积视频/RAW 照片的内容哈希较慢，建议配合大小检测或阈值跳过
恢复限制："Undo 功能"依赖操作日志，若日志丢失或超出窗口期则无法恢复；非真正文件系统级回收站机制
无内置备份：归档功能需用户指定路径，非自动云同步或版本控制集成

适合人群

数字囤积者：长期积累照片、文档、下载文件，需定期清理释放 SSD/HDD 空间
开发/运维人员：清理构建产物、重复依赖、日志归档，优化 CI/CD 缓存与备份体积
文档管理员：统一报告、合同、设计稿版本，防止 "file_v1_final_真的最终版.doc" 类混乱

常规风险

| 风险场景 | 说明 | 缓解措施 |

|---------|------|---------|

| 误删重要文件 | 自动确认开启 + 阈值设置不当 | 默认关闭 autoConfirm，设置合理 sizeThreshold，优先使用 dryRun |

| 权限不足导致中断 | 系统目录或正在使用的文件 | 清晰错误提示，建议 sudo 或关闭占用程序后重试 |

| 磁盘空间不足 | 归档模式下移动大文件至同盘 | 操作前检查可用空间，跨盘归档或先删后移 |

| 哈希碰撞误报 | 不同内容产生相同 MD5 | 实际概率极低；敏感场景可二次校验文件大小或采样比对 |

该工具作为 MIT 开源的本地文件管理技能，无网络传输、无云端依赖，数据隐私风险可控。

deduplication storage-cleanup file-management disk-space md5-hashing data-organization local-tool

File Deduplicator 内容

手动下载zip · 13.6 kB

config.jsonapplication/json

请选择文件