核心用法
Smooth Browser 是一款专为 AI 代理设计的浏览器自动化 Skill,通过 smooth-py CLI 工具与 smooth.sh 云服务交互,实现自然语言驱动的网页操作。核心工作流包括:创建持久化 Profile(保存登录态和 Cookie)、启动浏览器会话、执行自然语言任务、关闭会话保存状态。支持两种任务模式——run 命令调用智能代理完成复杂交互(如搜索、筛选、填写表单),extract 命令直接提取结构化数据(更高效、无代理步骤)。此外提供 JavaScript 执行、文件上传下载、实时人工介入(live-view)等高级功能。
显著优点
1. 自然语言交互:无需编写 XPath 或 Selenium 代码,用自然语言描述任务即可,大幅降低自动化门槛。
2. 状态持久化:Profile 机制支持 Cookie 和登录会话保存,避免重复认证,适合长期运行的自动化流程。
3. 结构化输出:通过 --response-model 参数直接返回 JSON 格式数据,便于后续程序化处理。
4. 人工介入能力:遇到 CAPTCHA、2FA 等障碍时,可生成实时视图 URL 让用户手动完成,兼顾自动化与灵活性。
5. 并行执行:支持通过子代理(subagents)同时运行多个独立会话,提升任务吞吐量。
潜在缺点与局限性
1. 云服务依赖:所有浏览器实例运行在 smooth.sh 远程服务器,需持续联网,存在服务可用性和延迟问题。
2. 成本门槛:基于信用额度计费,高并发或长会话场景成本较高,免费额度有限。
3. 代理黑盒:run 命令依赖 smooth.sh 的内部 AI 代理决策,任务失败时难以调试具体步骤。
4. 单标签限制:每个会话仅支持单标签页,多页面场景需开启多个会话。
5. JavaScript 安全风险:evaluate-js 支持任意代码执行,若任务描述被注入恶意指令,可能导致数据泄露。
适合的目标群体
- 数据工程师/爬虫开发者:需要快速抓取动态渲染页面的结构化数据。
- QA 测试工程师:进行 Web 应用的端到端自动化测试。
- 运营自动化团队:批量处理表单填写、内容发布、账号管理等重复性 Web 操作。
- AI Agent 开发者:为自主代理赋予浏览器交互能力,扩展工具边界。
使用风险
1. 供应链风险:依赖 PyPI 包 smooth-py 和第三方 smooth.sh 服务,若服务方被攻击或停止运营,Skill 将失效。
2. 数据隐私:上传文件、执行的 JavaScript、访问的网页内容均传输至 smooth.sh 服务器,敏感业务数据存在泄露风险。
3. API 密钥安全:密钥以本地配置文件形式存储,若环境被入侵,攻击者可冒用账户额度。
4. 任务不可控:过度抽象的任务描述可能导致代理执行非预期操作,建议通过 --allowed-urls 限制访问范围。