核心用法
本技能为百度千帆平台提供的「深度研究(Deep Research)」Agent 对话接口,区别于单次问答的标准大模型调用,其设计目标是支撑多轮、长流程、需人工介入的复杂研究任务。典型工作流如下:
1. 初始化会话:首次调用可选择自动创建 conversation_id,或显式调用 ConversationCreate 接口预创建。
2. 文件上传与解析(可选):若研究需基于外部文档,需依次调用 FileUpload → FileParseSumbit → FileParseQuery(轮询),支持 PDF/Word/Excel/PPT/图片/音频等格式,单文件最大 100 MB。
3. 深度对话循环:通过 DeepresearchConversation 进行 SSE 流式交互。Agent 会在关键节点(需求澄清、大纲确认)暂停并返回 interrupt_id,用户确认或修改后需携带该 ID 及结构化大纲继续下一轮。
4. 报告生成:最终按确认的大纲生成完整研究报告,支持 Lite(10 分钟内快速输出)与 Standard(深度优先,时长较长)两档质量策略。
显著优点
- 长程记忆与状态保持:
conversation_id+interrupt_id机制确保复杂任务可在多轮人工反馈中持续演化,避免上下文丢失。 - 结构化大纲可控:用户可在 Agent 生成的大纲基础上修改确认,实现「人机协同」的内容框架定制。
- 多模态文件支持:覆盖办公文档、表格、图片、音频,满足多元化研究素材输入需求。
- 流式 SSE 输出:适合实时展示推理进度,提升交互体验。
潜在缺点与局限性
- 流程复杂度高:涉及 4–5 个 API 的串联及轮询等待,集成成本显著高于普通 Chat Completion 接口。
- 状态管理负担重:开发者需自行维护
conversation_id、interrupt_id、task_id、file_id等多重状态,出错概率增加。 - 文件解析异步延迟:大文档解析需轮询等待,无 Webhook 回调机制,实时性受限。
- 生态锁定:深度绑定百度千帆平台,迁移成本较高。
适合人群
- 企业级知识管理、行业研究、投研分析等需深度报告生成的业务场景;
- 具备一定工程能力、可承担多接口编排与状态维护的开发团队;
- 对「人机回环」有强需求、愿意在关键节点引入人工审核的工作流设计者。
常规风险
- API Key 泄露:
BAIDU_API_KEY作为 Bearer Token 传输,需严格避免硬编码或日志泄露。 - 数据出境合规:文档上传至百度云服务,需评估敏感数据的合规处理要求。
- 长时任务中断:深度研究生成耗时较长,网络闪断或超时可能导致任务状态异常,需设计重试与续跑机制。
- SSE 连接稳定性:流式输出对网络稳定性要求高,弱网环境下可能出现截断或重连困难。