核心概述
Context Compression 是一套针对 AI Agent 超长会话(百万级token)的上下文压缩方法论,核心目标是优化 tokens-per-task(完成任务总token消耗)而非单纯的 tokens-per-request。
核心用法
1. 锚定迭代摘要(Anchored Iterative Summarization):维护结构化持久摘要,包含「会话意图、文件修改、决策记录、当前状态、下一步」五个强制章节。触发压缩时仅对新截断内容做摘要,再增量合并到现有章节。
2. 三阶段压缩工作流:
- Research Phase:将架构文档、接口探索压缩为组件依赖分析报告(5M token代码库→2000字规格)
- Planning Phase:转换为含函数签名、类型定义、数据流的实现规格
- Implementation Phase:对照规格执行,上下文聚焦规格而非原始代码
3. 基于探针的评估(Probe-Based Evaluation):用功能性问题测试压缩质量——如「原始错误消息是什么」「修改了哪些文件」「下一步做什么」,替代传统的 ROUGE/相似度指标。
显著优点
- 结构化强制保留:显式章节作为检查清单,防止文件路径、决策等关键信息静默丢失
- 质量-压缩率最优平衡:锚定迭代法压缩率 98.6%、质量评分 3.70/5.0,优于不透明压缩(99.3%/3.35)和再生摘要(98.7%/3.44)
- Artifact Trail 专项认知:明确指出文件追踪是所有压缩方法的最弱维度(2.2-2.5/5.0),建议配合独立索引或脚手架状态追踪
潜在局限
- Artifact Trail 难题:即便结构化摘要也难以在百轮以上会话中完整维护「创建了哪些文件、修改了什么、仅读了哪些」
- LLM Judge 为桩代码:
compression_evaluator.py中的评估实现为演示 stub,生产环境需接入真实 LLM API - 社区来源(T3):非企业级背书,需自行验证内容适用性
适合人群
- 构建超长会话 Agent(100+ 轮对话)的开发者
- 处理超大规模代码库(5M+ token)的 AI 编程工具团队
- 设计对话记忆系统、评估压缩质量的工程团队
常规风险
- 信息丢失导致重复探索:压缩过度会触发 re-fetching,反而增加总 token 消耗
- 幻觉风险:探针测试失败的压缩内容会导致 Agent 猜测或虚构文件状态
- 评估成本:探针式评估需额外 LLM 调用,增加验证开销
实践建议
- 在 70-80% 上下文利用率时触发压缩
- 对关键文件追踪启用独立索引,不依赖通用摘要
- 监控「重新获取信息频率」作为压缩质量信号