chain-of-density

🗜️ 学术论文级迭代文本密度优化

🥥45总安装量 19评分人数 27
100% 的用户推荐

基于Chain-of-Density论文方法,通过5轮迭代实体注入,在固定字数内将稀疏文本转为高密度摘要,保留完整信息并提升可读性。

A

基本安全,请在特定环境下使用

  • 来自社区或个人来源,建议先隔离验证
  • ✅ 无危险函数调用(无eval/exec/system/subprocess等),代码安全规范
  • ✅ 仅依赖Python标准库,无第三方依赖包及已知CVE漏洞
  • ✅ 无网络请求和数据上传行为,纯本地文本处理保障隐私
  • ⚠️ 来源为T3级社区开发者,建议在使用前进行代码审查
  • ⚠️ Python脚本从stdin读取输入,需确保输入文本来源可信

使用说明

Chain-of-Density(CoD)是一项源自学术论文的先进文本摘要技术,通过独特的迭代加密方式,在不增加字数的前提下显著提升文本信息密度。该技能严格遵循《From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting》论文方法论,采用5轮渐进式优化流程,将冗长文档转化为高密度的结构化摘要。

核心用法

该技能采用"迭代实体注入"机制:首轮生成稀疏基础摘要(约80字),后续每轮识别1-3个源文本中的关键实体(需满足相关性、特异性、新颖性、忠实性、位置任意性五大标准),通过压缩冗余表述腾出空间,在严格保持目标字数的同时纳入新实体。整个过程通过cod-iteration子代理串行执行,配合text_metrics.py脚本确保字数精确控制,最终输出信息密度最大化的摘要及实体积累历史。

显著优点

首先,该方法突破了传统摘要"字数越少信息越少"的局限,通过实体追踪确保关键信息无遗漏。其次,结构化的5轮迭代提供了可观测的优化路径,每轮明确标注新增的实体,使摘要质量可验证、可复现。第三,基于Apache-2.0开源协议和学术级论文背书,方法论透明且经过同行评议验证。最后,纯本地文本处理机制确保敏感文档的隐私安全。

潜在局限

该方法不适用于法律合规文本(需绝对精确)、教程内容(初学者需要解释性文字)或已很简洁的文本(<300字)。此外,5轮串行调用意味着较高的时间成本和API调用开销,实时性要求高的场景需谨慎。实体选择质量高度依赖底层LLM的能力,若模型理解力不足,可能导致实体相关性偏差。

适合人群

技术文档工程师可利用其压缩产品手册;产品经理可快速生成需求文档的Executive Summary;学术研究者能处理文献综述;内容运营人员可优化长文阅读体验。特别适合需要处理500字以上冗长文档、追求信息密度的知识工作者。

使用风险

除T3来源需谨慎审查外,主要风险在于性能延迟(多轮调用)和模型依赖。建议对敏感内容先在本地隔离环境测试,并避免用于需要100%精确保留原意的场景(如合同条款)。

chain-of-density 内容

文件夹图标scripts文件夹
手动下载zip · 4.1 kB
text_metrics.pytext/plain
请选择文件