使用说明

Chain-of-Density（CoD）是一项源自学术论文的先进文本摘要技术，通过独特的迭代加密方式，在不增加字数的前提下显著提升文本信息密度。该技能严格遵循《From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting》论文方法论，采用5轮渐进式优化流程，将冗长文档转化为高密度的结构化摘要。

核心用法

该技能采用"迭代实体注入"机制：首轮生成稀疏基础摘要（约80字），后续每轮识别1-3个源文本中的关键实体（需满足相关性、特异性、新颖性、忠实性、位置任意性五大标准），通过压缩冗余表述腾出空间，在严格保持目标字数的同时纳入新实体。整个过程通过cod-iteration子代理串行执行，配合text_metrics.py脚本确保字数精确控制，最终输出信息密度最大化的摘要及实体积累历史。

显著优点

首先，该方法突破了传统摘要"字数越少信息越少"的局限，通过实体追踪确保关键信息无遗漏。其次，结构化的5轮迭代提供了可观测的优化路径，每轮明确标注新增的实体，使摘要质量可验证、可复现。第三，基于Apache-2.0开源协议和学术级论文背书，方法论透明且经过同行评议验证。最后，纯本地文本处理机制确保敏感文档的隐私安全。

潜在局限

该方法不适用于法律合规文本（需绝对精确）、教程内容（初学者需要解释性文字）或已很简洁的文本（<300字）。此外，5轮串行调用意味着较高的时间成本和API调用开销，实时性要求高的场景需谨慎。实体选择质量高度依赖底层LLM的能力，若模型理解力不足，可能导致实体相关性偏差。

适合人群

技术文档工程师可利用其压缩产品手册；产品经理可快速生成需求文档的Executive Summary；学术研究者能处理文献综述；内容运营人员可优化长文阅读体验。特别适合需要处理500字以上冗长文档、追求信息密度的知识工作者。

使用风险

除T3来源需谨慎审查外，主要风险在于性能延迟（多轮调用）和模型依赖。建议对敏感内容先在本地隔离环境测试，并避免用于需要100%精确保留原意的场景（如合同条款）。

安全解读

Chain-of-Density 技术综述

Chain-of-Density（CoD）是一项源自2023年学术研究《From Sparse to Dense: GPT-4 Summarization with Chain of Density Prompting》的文本摘要技术，由 agentic-insights 维护实现。

核心机制

该技术采用迭代密度增强策略：首轮生成稀疏冗长的基线摘要（4-5句），后续4轮每轮识别1-3个缺失实体并强制融入，同时通过压缩冗余保持严格固定的字数。关键原则为"永不删除实体，只增不删"。实体筛选需满足5项标准：相关性、具体性（≤5词）、新颖性、忠实性（来源真实）和位置任意性。

显著优势

1. 学术背书：基于arXiv论文和HuggingFace公开数据集，方法论可复现
2. 信息守恒：固定字数约束避免摘要膨胀，实体累积机制确保关键信息无遗漏
3. 可控透明：5轮迭代过程可追踪，支持返回完整历史记录（return_history）
4. 安全纯净：Python标准库实现（sys/json），零第三方依赖，通过六维安全检测

局限与风险

适用边界：明确禁止用于法律/合规文本、教程内容、技术规格等需精确或解释性场景
依赖质量：实体识别质量取决于底层模型能力，存在幻觉风险（需faithful准则约束）
长度门槛：仅建议用于>500词的长文本，短内容压缩收益有限

适用场景

适合处理冗长文档（技术文档、需求规格、研究报告）的高管摘要生成，以及超纲技能描述的合规压缩。

架构设计

采用"技能-代理-脚本"三层架构：本文件作为编排器（Orchestrator），通过cod-iteration代理串行执行迭代，text_metrics.py提供确定性字数统计。设计符合"代理不可嵌套"的约束原则。

content-media docs productivity education-research

chain-of-density 内容

scripts文件夹

手动下载zip · 4.1 kB

text_metrics.pytext/plain

请选择文件