wechat-article-search

📰 中文资讯一键采集利器

🥥35总安装量 8评分人数 9
100% 的用户推荐

基于搜狗微信搜索的公众号文章采集工具,可快速获取中文资讯类文章的标题、摘要与链接,适合内容调研与资料整理场景。

B

存在边界风险,建议在隔离环境中验证

  • 来自可信组织或认证账号,需要结合权限范围判断
  • ✅ 未检测到恶意代码、木马、后门或数据窃取行为,代码开源可审计
  • ✅ 无敏感系统权限滥用,仅涉及必要的网络访问与可选的文件写入
  • ⚠️ 依赖 cheerio 版本未明确锁定,建议定期更新至安全版本
  • ⚠️ 存在网络爬虫行为,虽有限流机制但仍有 IP 封禁风险
  • ⚠️ 需从搜狗视频页获取初始 Cookie,涉及第三方站点数据交互

使用说明

核心用法

wechat-article-search 是一款专注于微信公众号文章检索的实用工具,通过调用搜狗微信搜索引擎(weixin.sogou.com)实现非官方渠道的内容采集。用户只需提供关键词,即可获取包含标题、文章概要、发布时间、来源公众号及访问链接的结构化数据。工具支持三种运行模式:基础搜索(默认返回10条)、数量限定搜索(-n 参数,最大50条)、结果导出(-o 参数输出JSON文件),以及真实链接解析(-r 参数尝试绕过搜狗中间页跳转)。底层依赖 Node.js 的 cheerio 库完成 HTML 解析,配合 https 和 zlib 模块处理网络请求与响应解压。

显著优点

该技能的最大价值在于填补了微信生态的内容检索缺口——微信官方未开放公众号文章 API,而搜狗搜索作为唯一被授权的第三方入口,使得这一工具成为研究者、运营人员和内容创作者获取中文互联网资讯的重要桥梁。相比手动浏览,自动化采集可将信息收集效率提升数十倍;JSON 输出格式便于后续接入数据分析流程或知识库系统。此外,工具内置了基础的反爬策略:请求间隔随机化(500-1500ms)、User-Agent 轮换、有限重试机制(3次),在一定程度上保障了采集稳定性。

潜在缺点与局限性

首先,该工具存在结构性依赖风险:搜狗搜索的页面结构变更将直接导致解析失效,且微信生态的反爬策略持续升级,真实链接解析成功率已标注为"常态失败"。其次,功能边界明显——仅支持关键词检索,无法实现按公众号筛选、按时间范围过滤、阅读量排序等高级功能;输出数据不包含文章正文,用户仍需手动访问链接获取完整内容。再者,法律合规层面存在灰色地带:工具明确声明"仅用于学习研究",但爬取行为本身可能违反搜狗/微信的服务条款,大规模商用存在法律风险。

适合的目标群体

  • 学术研究者:需要快速扫描特定主题的中文文献与观点
  • 新媒体运营:监测竞品动态、追踪热点话题、建立选题库
  • 市场分析师:收集行业资讯、品牌舆情、消费者反馈
  • 知识管理爱好者:构建个人阅读清单、资料归档系统
  • 开发者:作为内容聚合、RAG 知识库的数据源组件

使用风险

1. 服务可用性风险:IP 封禁是明确警告的后果,频繁请求将触发搜狗的风控机制
2. 数据完整性风险:搜索结果受搜狗索引更新频率限制,非实时;部分公众号因设置可能无法被检索

3. 依赖维护风险:cheerio 版本未锁定,需用户自行管理;Node.js 环境配置对非技术用户存在门槛

4. 链接失效风险:微信文章存在删除、屏蔽、域名变更等情况,采集的 URL 可能快速过期

5. 合规风险:尽管工具本身无恶意代码,但使用场景需严格遵守平台条款与数据保护法规

wechat-article-search 内容

文件夹图标scripts文件夹
手动下载zip · 8.8 kB
search_wechat.jstext/javascript
请选择文件