file-deduplicator

🗂️ 智能去重释放存储空间

Vernox 开源的文件去重工具,基于 MD5 哈希精准识别重复文件,支持安全删除与归档,帮助用户高效回收存储空间。

收藏
11.5k
安装
2.6k
版本
v1.0.0
CLS 安全性认证2026-05-14
点击查看完整报告 >

使用说明

核心用法

File-Deduplicator 是一款专注于文件去重的实用工具,提供三大核心功能::findDuplicates 用于扫描并识别重复文件,,removeDuplicates 执行删除或归档操作,,analyzeDirectory 生成目录重复文件统计报告。工具支持三种检测模式——基于内容的 MD5 哈希(推荐)、基于文件大小、以及基于文件名相似度,用户可根据场景灵活选择。执行删除前,强烈建议先启用 dryRun: true 预览变更,确认无误后再执行实际操作。

显著优点

该工具的安全设计尤为突出:支持归档模式替代直接删除、可配置大小阈值防止误删大文件、提供白名单机制保护关键目录、完整记录操作日志便于审计与恢复。性能方面,扫描速度优异(千级文件秒级完成),内存占用可控(百万文件约 200MB),且零第三方依赖,彻底规避供应链攻击风险。配置系统灵活,支持 JSON 配置文件持久化常用设置。

潜在缺点与局限性

默认配置中 defaultActiondelete,新用户若未仔细阅读文档可能直接执行删除操作;autoConfirm: false 虽提供保护,但缺乏交互式逐文件确认机制。同步文件 API 在处理海量文件时可能阻塞主线程。此外,当前版本不支持图像相似度检测、近重复内容识别及云存储集成,对多媒体去重场景覆盖有限。

适合的目标群体

  • 数字囤积者:照片、视频、下载文件堆积的用户,需要快速释放存储空间
  • 文档管理者:企业用户整理报告、合同、版本文件,防止备份膨胀
  • 开发者/DevOps:清理项目中的重复源码、构建产物、node_modules 冗余
  • 系统管理员:优化服务器存储,定期执行自动化去重任务

使用风险

1. 误删风险:尽管有多重保护,文件删除操作本身不可逆,务必先 dry-run
2. 路径遍历:需确保传入的目录路径可信,避免扫描敏感系统目录

3. 性能瓶颈:递归扫描超大型目录(如百万级文件)时可能耗时较长

4. 权限问题:对系统目录操作时可能因权限不足导致部分文件跳过处理

安全解读

核心用法

File-Deduplicator 是一款基于 Node.js 内置模块开发的纯本地文件去重工具,通过 MD5 内容哈希算法精准识别重复文件。核心功能围绕三大函数展开:

  • `findDuplicates`:扫描指定目录,返回重复文件分组及空间浪费统计
  • `removeDuplicates`:执行去重操作,支持保留策略(最新/最旧/最小/最大)与动作类型(删除/移动/归档)
  • `analyzeDirectory`:单目录分析,输出重复率等统计指标

支持三种检测模式:内容哈希(推荐,100%准确)、文件大小(快速但可能遗漏重命名文件)、文件名相似度(适合版本文件识别)。内置 dry-run 预览模式,可在实际执行前查看待删除文件列表。

显著优点

安全架构领先:零第三方依赖,仅使用 Node.js 原生 fs/path/crypto 模块,供应链攻击面为零;无网络通信,纯离线运行,彻底杜绝数据外泄风险。

多重保护机制:大小阈值保护(默认 10MB 以上文件需二次确认)、白名单目录保护、操作日志记录、归档模式替代直接删除、确认提示等层层防护。

性能表现优异:10,000 文件扫描 1-5 秒完成,内存占用约 200MB 可处理百万级文件,哈希缓存机制优化重复计算。

灵活配置丰富:递归/非递归扫描、排除模式(默认过滤 .git/node_modules)、多种保留策略、批量处理与交互模式可选。

潜在局限

MD5 算法争议:虽然用于文件去重场景完全合理且性能优秀,但 MD5 在密码学领域已被淘汰,部分安全敏感用户可能产生顾虑。

误删除风险:尽管有多重保护,文件删除操作本身存在不可逆性(无系统回收站集成),用户误操作或配置错误仍可能导致数据丢失。

功能边界清晰:专注于精确重复文件检测,不支持图片相似度识别、近重复内容检测等高级去重场景(已在 Roadmap 中规划)。

跨平台差异:不同操作系统文件权限、路径处理可能存在细微差异,特殊环境需额外测试。

适合人群

  • 数字囤积者:照片、文档、下载文件夹严重膨胀,需定期清理重复内容的个人用户
  • 开发团队:清理项目中的重复源码、构建产物、依赖缓存,优化仓库与构建环境
  • 文档管理员:企业文档库去重,保留最新版本归档旧版本,防止版本混乱
  • 备份优化需求者:识别备份驱动器中的冗余文件,节省备份存储成本
  • 隐私敏感用户:拒绝云端工具,要求数据完全本地处理的保守型用户

常规风险

操作风险(中):文件删除不可逆,建议始终先执行 dry-run 预览,重要数据先行备份;避免在系统目录、工作项目根目录直接运行自动删除。

配置风险(低):排除模式配置不当可能遗漏目标文件,或过度排除导致扫描不完整;建议从非关键目录开始熟悉工具行为。

权限风险(低):扫描系统目录或受保护文件夹时可能遇到权限错误,需以适当权限运行或调整目标范围。

存储风险(低):归档模式需确保目标磁盘有足够空间容纳待归档文件,避免移动操作中途失败。

file-deduplicator 内容

手动下载zip · 13.4 kB
config.jsonapplication/json
请选择文件