Humanize AI text

AI 文本特征检测与人文风改写工具

专业技能榜 #28

基于 Wikipedia 指南的 AI 文本检测与改写工具,识别 16 类 AI 写作特征并转换为人文风,但存在学术诚信伦理风险。

收藏
106.8k
安装
40.2k
版本
1.0.1
CLS 安全性认证2026-05-04
点击查看完整报告 >

使用说明

核心用法

humanize-ai-text 是一套 Python CLI 工具集,用于检测和转换 AI 生成文本特征。包含三个核心脚本:

1. detect.py — 扫描文本中的 16 类 AI 写作模式(基于 Wikipedia "Signs of AI Writing" 指南),输出 AI 概率评分(低/中/高/极高)
2. transform.py — 自动修复可识别的 AI 特征,包括引用错误(oaicite、turn0search)、Markdown 格式、聊天机器人套话、系动词回避等

3. compare.py — 对比转换前后的检测分数,量化改进效果

典型工作流:扫描 → 转换 → 验证 → 人工审阅(AI 词汇和促销用语需人工判断)

显著优点

  • 技术可靠性高:零外部依赖,仅使用 Python 标准库(argparse、json、re、pathlib),供应链攻击风险为零
  • 完全离线运行:无网络连接、无 API 调用、无数据外发,隐私合规性优秀(GDPR/SOC2/ISO27001 均符合)
  • 开源透明:代码结构清晰,基于 Wikipedia 公开文档,来源可追溯
  • 功能完整:覆盖从检测到转换的全流程,支持批量处理和 JSON 输出
  • 安全评分优异:CLS 安全认证 B 级(89.2 分),动态行为、依赖链、网络流量均获高分

潜在缺点与局限性

  • 核心伦理争议:功能设计本质是帮助文本"通过"AI 检测器(GPTZero、Turnitin、Originality.ai),主要用例可能涉及学术诚信规避
  • 威胁情报评分低(65/100):功能可被滥用为学术不诚实工具,违反部分平台服务条款
  • 自动化局限:AI 词汇和促销语言需要人工判断,无法全自动处理
  • 代码完善度:缺少完整类型注解,部分边界条件处理不够严谨
  • 使用门槛:需要用户理解 AI 写作特征才能有效人工复核

适合人群

  • 教育研究者:研究 AI 检测机制与文本特征
  • 内容创作者:改善个人写作风格,去除 AI 辅助痕迹使内容更自然
  • 技术开发者:学习文本模式匹配与转换技术
  • 不推荐:意图规避学术诚信检测的学生或研究人员

常规风险

1. 学术诚信风险:明确可能被用于违反学术规范的场景,用户需自行承担伦理责任
2. 检测对抗性:随着 AI 检测器升级,模式库需要持续更新(patterns.json 可自定义)

3. 过度依赖:自动转换可能损失原文精确性,关键内容仍需人工审核

4. 平台合规风险:部分机构明确禁止使用此类工具,需事先确认政策

安全解读

核心功能

humanize-ai-text 是一套开源CLI工具集,专注于检测并转换AI生成文本,使其通过主流AI检测器(GPTZero、Turnitin、Originality.ai)。基于Wikipedia「Signs of AI Writing」权威指南,系统识别16类AI写作特征并自动优化。

三大核心脚本

  • detect.py:扫描文本中的AI模式,输出风险评分与分类统计
  • transform.py:自动修复AI特征(引用bug、Markdown格式、聊天机器人套话、冗余词汇等)
  • compare.py:转换前后对比分析,量化改进效果

检测维度(四级信号体系)

| 级别 | 特征类别 | 典型示例 |
|:---|:---|:---|
| **Critical** | 引用bug、知识截止声明、聊天机器人痕迹、Markdown格式 | `oaicite`、"as of my last training"、"I hope this helps"、`**bold**` |
| **High** | AI高频词汇、意义膨胀、推销语言、系动词回避 | delve, tapestry、"serves as a testament"、"boasts"代替"has" |
| **Medium** | 表面-ing结构、填充短语、模糊归因、挑战公式 | "highlighting the importance"、"in order to"、"experts believe" |
| **Style** | 弯引号、破折号滥用、否定平行结构、三一律 | `"` `"`、过度使用`—`、`Not only...but also` |

显著优点

1. 完全本地运行:纯Python标准库实现,零网络调用、零外部依赖、零数据外传
2. 权威理论基础:基于Wikipedia社区维护的「AI写作特征」指南,模式库来自数千真实案例

3. 自动化程度高:一键修复常见AI痕迹,支持批量处理与JSON输出集成

4. 透明度强:开源可审计,所有转换规则可自定义(patterns.json

潜在局限与风险

| 局限 | 说明 |
|:---|:---|
| **语义判断依赖人工** | AI高频词(delve, pivotal)和推销语言需用户自行判断是否替换,无法全自动处理 |
| **语境理解有限** | 正则匹配可能误伤合法学术表达,如"landscape"在景观建筑学中为专业术语 |
| **检测对抗性** | 随着检测器升级,特征库需持续更新;工具本身可能成为"军备竞赛"一环 |
| **学术诚信灰色地带** | 虽声称用于"提升可读性",但核心卖点是"bypass detection",存在学术不端使用风险 |
| **来源可信度T3** | 个人开发者维护,无机构背书,长期维护稳定性存疑 |

适合人群

  • 内容创作者:需将AI辅助草稿润色为自然表达,避免平台误判
  • 非英语母语研究者:修正AI翻译/生成的机械感学术写作
  • SEO从业者:降低AI生成内容被搜索引擎识别的风险
  • ⚠️ 不适用:试图掩盖抄袭或代写行为的学术场景(违反学术诚信)

常规风险提醒

  • S级安全认证:经CLS-Certify全量扫描,无恶意代码、无遥测、无危险函数
  • 合规性:符合GDPR数据最小化原则,本地处理保障隐私
  • 使用边界:技术本身中立,但"绕过检测"功能可能被滥用于学术欺诈,用户需自行承担伦理与法律后果

Humanize AI text 内容

scripts文件夹
手动下载zip · 10.4 kB
compare.pytext/plain
请选择文件