核心用法
Deep Research Conversation 是百度提供的长流程深度研究对话 Agent,区别于普通问答,它通过多轮 SSE 流式交互实现渐进式推理与执行。
两种使用路径:
- 纯主题讨论:直接调用
DeepresearchConversationAPI,系统自动创建会话 - 带文件分析:先创建会话 → 上传文件(支持 doc/pdf/xlsx/图片/音频等)→ 提交解析 → 轮询解析状态 → 结合文件内容进行深度对话
关键交互机制:
- 流式响应(SSE)实时返回中间结果
- 支持「需求澄清」和「大纲确认」中断点,用户需确认或修改后继续
- 必须保持
conversation_id连续性,响应中断需回传interrupt_id - 提供 Lite(10分钟内)和 Standard(深度慢速)两种模式
显著优点
1. 企业级多模态支持:覆盖文本、表格、图片、音频四大类文件,单文件最大 100MB
2. 结构化大纲控制:用户可审核并修改自动生成的研究大纲,确保输出方向可控
3. 渐进式深度研究:通过多轮验证与修正机制,逐步收敛至满意答案,避免一次性生成的偏差
4. 百度生态集成:依托千帆大模型平台,中文语境理解与长文本处理能力较强
潜在局限
- 异步复杂性高:文件解析需轮询等待,完整流程涉及 4-5 个 API 调用,集成门槛较高
- 模式权衡:Lite 模式快但浅,Standard 模式深但慢,无中间档位
- 中断依赖用户介入:
interrupt_id和structured_outline的回传逻辑增加了客户端状态管理负担 - 仅支持单 Sheet Excel:表格类文件解析能力受限
- 实时性受限:SSE 流式虽实时,但整体任务属于长耗时批处理,不适合即时响应场景
适合人群
- 科研人员、分析师、咨询顾问等需要深度研究报告的专业用户
- 处理复杂多模态文档(合同、财报、论文、会议录音)并进行问答的企业场景
- 能接受分钟级等待以换取更高质量输出的任务型应用
常规风险
| 风险点 | 说明 |
|--------|------|
| API Key 泄露 | `BAIDU_API_KEY` 需妥善保管,避免硬编码 |
| 文件隐私 | 上传敏感文档至百度云服务,需评估数据跨境与合规要求 |
| 轮询资源消耗 | 文件解析状态查询频率不当可能导致请求浪费 |
| 会话状态丢失 | `conversation_id` 管理不当会导致研究进度中断 |