Wechat Search

🔍 合规搜索微信公众号内容的三层智能工具

合规搜索微信公众号文章的智能工具,采用三层搜索策略,优先使用合法API,尊重平台规则与速率限制。

收藏
14.2k
安装
3k
版本
1.0.3
CLS 安全性认证2026-05-03
点击查看完整报告 >

使用说明

核心用法

WeChat Search Skill 是一款专为搜索微信公众号文章设计的合规化工具。其核心采用三层搜索策略:第一层优先调用 OpenClaw 的 Brave Search API(通过 site:mp.weixin.qq.com 过滤);第二层启用 Tavily AI 搜索 API 作为备选;第三层仅在上述 API 均不可用时,才以尊重性网页抓取作为兜底方案,直接访问搜狗微信搜索结果页。

用户可通过命令行灵活操作:基础搜索 wechat-search "关键词",支持 --max-results 调整返回数量(默认5篇,最高20篇)、--past-week 限定近一周内容、--from/--to 自定义日期范围,以及 --output json 切换输出格式。配置层面支持通过 ~/.openclaw/wechat-search-config.json 自定义默认参数、请求延迟(默认5000ms)、缓存时长和 User-Agent 标识。

显著优点

合规优先设计:该工具将法律合规置于首位,明确要求尊重 robots.txt、实施最低5秒请求间隔、使用透明 User-Agent 标识机器人身份,且仅访问公开内容,不存储全文仅保留元数据。这种设计在同类工具中较为罕见,有效降低了用户法律风险。

智能容错机制:三层策略形成可靠的降级链路,配合自动重试(最多3次)和清晰的错误提示,确保服务连续性。同时支持强制指定策略(如 --strategy tavily_only),便于调试和特定场景使用。

潜在缺点与局限性

依赖外部 API:核心功能依赖 Brave Search 和 Tavily 的可用性与索引覆盖,若两者均未配置或失效,第三层直接抓取受微信/搜狗反爬机制限制,成功率可能下降。

内容获取有限:工具仅获取文章元数据(标题、摘要、链接等),不提取全文内容,需用户二次跳转阅读;且微信平台的封闭性可能导致部分账号文章未被搜索引擎收录。

时效性约束:默认返回最新5篇,虽可配置但受 API 索引延迟影响,"最新"内容可能存在数小时至数天的滞后。

适合人群

  • 研究人员与分析师:需要批量追踪特定领域公众号动态
  • 内容创作者:寻找选题灵感与行业趋势参考
  • 企业市场人员:监测品牌舆情与竞品动态
  • 开发者:可作为合规搜索微信生态内容的组件集成

常规风险

合规风险:尽管设计强调合规,但直接抓取(第三层)仍存在触碰平台反爬策略的可能,建议优先配置 API Key 以规避此风险。

数据准确性:依赖第三方搜索引擎索引,存在链接失效、摘要不准确或排名偏差的可能,重要信息需人工核实。

隐私考量:虽声明不存储全文,但搜索关键词本身可能涉及敏感信息,建议在可控环境中使用。

安全解读

核心功能

wechat-search 是一款专为微信公众号文章搜索设计的工具 Skill,采用三层搜索策略实现高效、合规的内容检索。核心架构包括:Layer 1 使用 OpenClaw 内置的 Brave Search API(通过 site:mp.weixin.qq.com 限定域名),Layer 2 启用 Tavily AI 搜索作为备用,Layer 3 则以前向搜狗微信搜索的礼貌爬取作为最终兜底。所有策略均内置 robots.txt 检查、5 秒速率限制及透明 User-Agent 标识,确保符合平台规则。

显著优点

  • 合规优先设计:明确声明尊重 robots.txt、最小化数据留存、仅访问公开内容,满足 GDPR/CCPA 等隐私法规
  • 灵活的时间控制:支持 --past-week--from/to 等日期参数,可精准筛选近期文章
  • 多格式输出:提供 text、JSON、markdown 三种输出格式,便于后续自动化处理
  • 健壮的错误处理:三层自动降级机制,API 失败时无缝切换,网络错误支持 3 次重试

潜在局限

  • 依赖外部 API:Brave/Tavily API 需独立配置密钥,无密钥时退化为搜狗爬取,稳定性受目标站点反爬策略影响
  • 内容获取受限:仅返回文章元数据(标题、摘要、URL),不提取全文,需用户自行跳转阅读原文
  • 结果数量上限:默认最多 20 条,大规模数据收集场景下能力不足
  • 中文分词限制:依赖第三方搜索引擎的中文处理能力,复杂查询可能返回相关性偏差

适用人群

  • 研究人员、媒体从业者需要追踪特定主题的公众号舆情动态
  • 开发者构建基于公众号内容的自动化监控或摘要工作流
  • 对合规性有要求、不愿使用粗暴爬虫方案的个人或小型团队

常规风险

  • T3 来源可信度:由个人开发者(jixsonwang)维护,无企业背书,建议审查更新频率后用于生产环境
  • 外部脚本依赖:通过 subprocess 调用未经验证的 Node.js 脚本(search.mjs),若脚本被篡改可能导致非预期行为
  • 环境变量暴露:调用 subprocess 时复制完整 os.environ,可能意外传递其他敏感环境变量至子进程

整体而言,wechat-search 在功能性与合规性之间取得了较好平衡,适合作为轻量级公众号内容发现工具使用。

Wechat Search 内容

手动下载zip · 11.7 kB
debug_test.pytext/plain
请选择文件