File Deduplicator

🧹 智能去重释放存储空间

基于内容哈希的智能重复文件检测清理工具,支持多种检测方式与安全删除机制,适合数字囤积者释放存储空间

收藏
8k
安装
2.8k
版本
1.0.0
CLS 安全性认证2026-05-21
点击查看完整报告 >

使用说明

核心用法

File-Deduplicator 是一款面向存储管理的重复文件清理工具,提供三层次的检测机制:内容哈希(MD5) 精确识别完全相同的文件,大小比对 快速筛选相似媒体文件,名称相似度 捕获版本迭代产生的重复文档。支持递归目录扫描、排除模式配置(如 .git、node_modules),以及白名单保护关键目录。

主要工作流程为:扫描 → 分析 → 预览/执行。findDuplicates 用于发现重复,removeDuplicates 执行清理,两者均支持 dryRun 模式先行验证。清理策略灵活,可保留最新/最旧/最小/最大文件,支持直接删除、移至归档或生成操作日志备查。

显著优点

  • 检测精准:内容哈希确保 100% 精确匹配,不受重命名影响;三种方法互补覆盖不同场景
  • 操作安全:默认非自动确认、大小阈值保护(默认 10MB)、归档替代删除、完整操作日志支持有限恢复
  • 性能可控:批量处理(1000 文件/批次)、哈希缓存优化,百万级文件峰值内存约 200MB
  • 配置灵活:JSON 配置持久化偏好,排除模式与目录白名单防止误扫系统关键区域

潜在局限

  • 哈希局限:MD5 存在理论碰撞风险(实际文件场景概率极低),且无法检测内容相似但非完全一致的文件(如不同压缩率图片、轻微编辑版本)
  • 媒体文件效率:大体积视频/RAW 照片的内容哈希较慢,建议配合大小检测或阈值跳过
  • 恢复限制:"Undo 功能"依赖操作日志,若日志丢失或超出窗口期则无法恢复;非真正文件系统级回收站机制
  • 无内置备份:归档功能需用户指定路径,非自动云同步或版本控制集成

适合人群

  • 数字囤积者:长期积累照片、文档、下载文件,需定期清理释放 SSD/HDD 空间
  • 开发/运维人员:清理构建产物、重复依赖、日志归档,优化 CI/CD 缓存与备份体积
  • 文档管理员:统一报告、合同、设计稿版本,防止 "file_v1_final_真的最终版.doc" 类混乱

常规风险

| 风险场景 | 说明 | 缓解措施 |
|---------|------|---------|
| 误删重要文件 | 自动确认开启 + 阈值设置不当 | 默认关闭 autoConfirm,设置合理 sizeThreshold,优先使用 dryRun |
| 权限不足导致中断 | 系统目录或正在使用的文件 | 清晰错误提示,建议 sudo 或关闭占用程序后重试 |
| 磁盘空间不足 | 归档模式下移动大文件至同盘 | 操作前检查可用空间,跨盘归档或先删后移 |
| 哈希碰撞误报 | 不同内容产生相同 MD5 | 实际概率极低;敏感场景可二次校验文件大小或采样比对 |

该工具作为 MIT 开源的本地文件管理技能,无网络传输、无云端依赖,数据隐私风险可控。

安全解读

核心用法

File-Deduplicator 是一款专注于本地文件去重的工具型 Skill,通过内容哈希(MD5)、文件大小或文件名比对三种模式,识别并处理重复文件。核心工作流分为「扫描发现」和「清理移除」两个阶段:

扫描阶段:调用 findDuplicates 指定一个或多个目录,选择检测方法(推荐 content 模式),返回重复文件组、浪费空间估算及扫描耗时。

清理阶段:调用 removeDuplicates 执行实际清理,支持多种策略——保留最新/最旧文件、直接删除或移至归档目录、启用 dry-run 预览变更。

安全机制:提供 dry-run 预览、归档替代删除、文件大小阈值(默认 10MB 以上不自动删除)、白名单保护、操作日志记录等五层防护。

显著优点

  • 功能单一专注:无冗余功能,去重逻辑清晰,适合文档/照片/项目代码等多种场景
  • 零外部依赖:仅使用 Node.js 内置模块(fs/path/crypto),供应链攻击面为零
  • 完全离线运行:无网络请求,无数据外传,隐私安全可控
  • 多重安全保护:dry-run + archive + 阈值 + 白名单 + 日志,误删风险极低
  • 性能表现良好:10 万级文件扫描秒级完成,内存占用约 200MB

潜在缺点与局限性

  • 来源可信度受限:作者 Vernox 为个人开发者(T3 级),无公开 GitHub 仓库信息,长期维护不确定性较高
  • 哈希算法局限:采用 MD5 而非 SHA-256,虽满足去重需求但非加密安全级别;对于超大文件(GB 级视频)哈希计算耗时较长
  • 无图像相似度检测:目前仅支持完全重复,无法识别「相似但非相同」的图片(如压缩后照片)
  • 无云存储集成:不支持直接扫描 S3、Google Drive 等云端重复文件
  • 跨平台兼容性未明确:文档未说明 Windows/macOS/Linux 路径处理差异

适合人群

  • 数字囤积者:下载文件夹、照片库、文档堆积严重的个人用户
  • 开发者:清理项目中的重复依赖、构建产物、备份文件
  • 小型团队:统一文档管理,减少备份冗余,优化 NAS/服务器存储
  • 隐私敏感用户:完全离线运行,无需担心文件内容上传云端

常规风险

| 风险类型 | 说明 | 缓解建议 |
|---------|------|---------|
| 误删重要文件 | 尽管有多重保护,直接 delete 模式仍存在操作风险 | **务必先使用 dry-run 预览**,重要文件改用 archive 模式 |
| 日志信息泄露 | deduplication.log 可能记录敏感文件路径 | 定期清理日志或配置 maxLogSize 限制 |
| 大文件误处理 | 默认 10MB 阈值可能不足以保护某些重要大文件 | 根据实际场景调低 sizeThreshold 或加入白名单 |
| 来源维护中断 | T3 级个人项目,后续更新不可控 | 关注版本更新,生产环境建议人工审查代码后锁定版本 |

总体评估:该 Skill 代码质量良好,功能透明,安全设计周到,适合个人及小型团队在日常文件整理场景中使用。建议首次使用时严格遵循「dry-run → archive → delete」的渐进式操作路径。

File Deduplicator 内容

手动下载zip · 13.6 kB
config.jsonapplication/json
请选择文件