File Deduplicator

🧹 智能去重释放存储空间

tools榜 #13

基于内容哈希的智能重复文件检测清理工具,支持多种检测方式与安全删除机制,适合数字囤积者释放存储空间

收藏
8k
安装
2.8k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心用法

File-Deduplicator 是一款面向存储管理的重复文件清理工具,提供三层次的检测机制:内容哈希(MD5) 精确识别完全相同的文件,大小比对 快速筛选相似媒体文件,名称相似度 捕获版本迭代产生的重复文档。支持递归目录扫描、排除模式配置(如 .git、node_modules),以及白名单保护关键目录。

主要工作流程为:扫描 → 分析 → 预览/执行。findDuplicates 用于发现重复,removeDuplicates 执行清理,两者均支持 dryRun 模式先行验证。清理策略灵活,可保留最新/最旧/最小/最大文件,支持直接删除、移至归档或生成操作日志备查。

显著优点

  • 检测精准:内容哈希确保 100% 精确匹配,不受重命名影响;三种方法互补覆盖不同场景
  • 操作安全:默认非自动确认、大小阈值保护(默认 10MB)、归档替代删除、完整操作日志支持有限恢复
  • 性能可控:批量处理(1000 文件/批次)、哈希缓存优化,百万级文件峰值内存约 200MB
  • 配置灵活:JSON 配置持久化偏好,排除模式与目录白名单防止误扫系统关键区域

潜在局限

  • 哈希局限:MD5 存在理论碰撞风险(实际文件场景概率极低),且无法检测内容相似但非完全一致的文件(如不同压缩率图片、轻微编辑版本)
  • 媒体文件效率:大体积视频/RAW 照片的内容哈希较慢,建议配合大小检测或阈值跳过
  • 恢复限制:"Undo 功能"依赖操作日志,若日志丢失或超出窗口期则无法恢复;非真正文件系统级回收站机制
  • 无内置备份:归档功能需用户指定路径,非自动云同步或版本控制集成

适合人群

  • 数字囤积者:长期积累照片、文档、下载文件,需定期清理释放 SSD/HDD 空间
  • 开发/运维人员:清理构建产物、重复依赖、日志归档,优化 CI/CD 缓存与备份体积
  • 文档管理员:统一报告、合同、设计稿版本,防止 "file_v1_final_真的最终版.doc" 类混乱

常规风险

| 风险场景 | 说明 | 缓解措施 |
|---------|------|---------|
| 误删重要文件 | 自动确认开启 + 阈值设置不当 | 默认关闭 autoConfirm,设置合理 sizeThreshold,优先使用 dryRun |
| 权限不足导致中断 | 系统目录或正在使用的文件 | 清晰错误提示,建议 sudo 或关闭占用程序后重试 |
| 磁盘空间不足 | 归档模式下移动大文件至同盘 | 操作前检查可用空间,跨盘归档或先删后移 |
| 哈希碰撞误报 | 不同内容产生相同 MD5 | 实际概率极低;敏感场景可二次校验文件大小或采样比对 |

该工具作为 MIT 开源的本地文件管理技能,无网络传输、无云端依赖,数据隐私风险可控。

File Deduplicator 内容

手动下载zip · 13.6 kB
config.jsonapplication/json
请选择文件