Agent-Skills-for-Context-Engineering

🗜️ 长会话智能压缩,保留关键不丢上下文

Agent长对话上下文压缩策略指南,提供锚定迭代摘要、评估框架与三阶段工作流,帮助在超长会话中保持关键信息完整性,降低token消耗而非单次请求。

收藏
9.7k
安装
3.1k
版本
1.0.0
CLS 安全扫描中
预计需要 3 分钟...

使用说明

核心概述

Context Compression 是一套针对 AI Agent 超长会话(百万级token)的上下文压缩方法论,核心目标是优化 tokens-per-task(完成任务总token消耗)而非单纯的 tokens-per-request。

核心用法

1. 锚定迭代摘要(Anchored Iterative Summarization):维护结构化持久摘要,包含「会话意图、文件修改、决策记录、当前状态、下一步」五个强制章节。触发压缩时仅对新截断内容做摘要,再增量合并到现有章节。

2. 三阶段压缩工作流

  • Research Phase:将架构文档、接口探索压缩为组件依赖分析报告(5M token代码库→2000字规格)
  • Planning Phase:转换为含函数签名、类型定义、数据流的实现规格
  • Implementation Phase:对照规格执行,上下文聚焦规格而非原始代码

3. 基于探针的评估(Probe-Based Evaluation):用功能性问题测试压缩质量——如「原始错误消息是什么」「修改了哪些文件」「下一步做什么」,替代传统的 ROUGE/相似度指标。

显著优点

  • 结构化强制保留:显式章节作为检查清单,防止文件路径、决策等关键信息静默丢失
  • 质量-压缩率最优平衡:锚定迭代法压缩率 98.6%、质量评分 3.70/5.0,优于不透明压缩(99.3%/3.35)和再生摘要(98.7%/3.44)
  • Artifact Trail 专项认知:明确指出文件追踪是所有压缩方法的最弱维度(2.2-2.5/5.0),建议配合独立索引或脚手架状态追踪

潜在局限

  • Artifact Trail 难题:即便结构化摘要也难以在百轮以上会话中完整维护「创建了哪些文件、修改了什么、仅读了哪些」
  • LLM Judge 为桩代码compression_evaluator.py 中的评估实现为演示 stub,生产环境需接入真实 LLM API
  • 社区来源(T3):非企业级背书,需自行验证内容适用性

适合人群

  • 构建超长会话 Agent(100+ 轮对话)的开发者
  • 处理超大规模代码库(5M+ token)的 AI 编程工具团队
  • 设计对话记忆系统、评估压缩质量的工程团队

常规风险

  • 信息丢失导致重复探索:压缩过度会触发 re-fetching,反而增加总 token 消耗
  • 幻觉风险:探针测试失败的压缩内容会导致 Agent 猜测或虚构文件状态
  • 评估成本:探针式评估需额外 LLM 调用,增加验证开销

实践建议

  • 在 70-80% 上下文利用率时触发压缩
  • 对关键文件追踪启用独立索引,不依赖通用摘要
  • 监控「重新获取信息频率」作为压缩质量信号

Agent-Skills-for-Context-Engineering 内容

references文件夹
scripts文件夹
手动下载zip · 13.7 kB
evaluation-framework.mdtext/markdown
请选择文件