使用说明

核心用法

Prompt Assemble 是一套标准化的、保证API稳定性的token安全提示词组装框架。它采用两阶段上下文构建（先构建最小上下文，再按需注入记忆）和内存安全阀机制，从根本上防止token溢出。核心流程包括：用户输入 → 内存需求判断 → 最小上下文构建 → 内存检索（可选）→ 内存摘要 → token估算 → 安全阀决策 → 最终提示词。

关键设计原则

设置75%保守阈值（如204K模型设为153K），预留25%缓冲应对模型开销和估算误差
记忆层永远是"可丢弃的增强"，绝非刚性依赖
Token预算决策完全集中在prompt assemble层，避免分散管理

六阶段详解

1. 基础配置：设定模型上下文窗口、安全边距、记忆条数上限（默认top-3）、单条记忆摘要行数上限（3行）
2. 最小上下文：系统提示词 + 最近N条消息（N=3，已裁剪）+ 当前用户输入，默认不含任何记忆
3. 内存需求判断：通过关键词触发器（如"previously"、"last time"等8类表达）识别是否需要检索历史记忆
4. 内存检索与摘要：仅当触发时检索top-k记忆，每条压缩至最多3行
5. 安全阀决策：估算token若超阈值，直接丢弃记忆层并附加系统通知，绝不降级系统提示词或截断用户输入
6. 最终组装：合并上下文与（可能为空的）记忆层输出

显著优点

绝对防溢出：硬性安全阀机制确保任何情况下API调用不会因token超限失败
架构清晰：六阶段流水线明确分离关注点，便于调试和扩展
记忆管理规范：明确区分允许存储的内容（用户偏好、长期目标、确认结论）与禁止内容（原始对话日志、推理痕迹、临时讨论）
模型无关设计：通过配置文件适配不同模型的上下文窗口（已内置MiniMax-M2.1、Claude 3.5、GPT-4o参数）

潜在局限

保守策略可能牺牲部分性能：75%阈值意味着主动放弃25%的可用上下文容量，在超长文档处理场景可能提前触发记忆丢弃
关键词触发器的召回限制：依赖8个固定关键词识别内存需求，可能漏检语义相关但未使用特定表达的查询
内存摘要的信息损失：强制3行摘要可能丢失关键细节，尤其在复杂多步骤推理场景
无动态阈值调整：安全边距为静态配置，无法根据实际模型响应模式自适应优化

适合人群

构建需要长期记忆能力的对话型Agent的开发者
处理多轮复杂交互、需保证服务稳定性的生产环境工程师
需要标准化提示词工程流程的团队技术负责人
使用上下文窗口有限模型（如早期GPT-4级别）的场景

常规风险

估算误差累积：token计数为近似估算（如基于字符数或子词单元），与模型真实tokenizer存在偏差，极端情况下仍可能突破实际限制
记忆层过度依赖：若业务逻辑假设记忆"通常可用"，安全阀触发时可能导致服务质量断崖式下降
配置漂移风险：模型上下文窗口更新后若未及时同步配置参数，可能导致阈值失效
摘要质量不可控：依赖外部摘要模型的质量，若摘要模型本身不稳定，可能引入噪声而非有用信息

prompt-engineering token-management memory-system agent-framework llm-safety context-window api-stability

Prompt Safe 内容

references文件夹

scripts文件夹

手动下载zip · 8.9 kB

memory_standards.mdtext/markdown

请选择文件