10 个在 GitHub 上的仓库,为你爬取整个互联网。


收藏每一个。每个都能从地球上的任何网站提取干净的数据,这种访问是公司在销售电话和合同背后出售的那种。
Firecrawl。将其指向任何网站,它会爬取每个页面,渲染 JavaScript,并立即返回 AI 可以读取的干净结构化数据。目前是 AI 堆栈中最广泛采用的爬取骨架之一,完全开源。

Crawl4AI。将任何网站转换为干净、适合大型语言模型的 markdown。无需 API 密钥,无需账户,无需每页收费。拥有数万颗星,是 GitHub 上增长最快的爬虫之一。

browser-use。一个驱动真实浏览器的 AI 代理:点击、滚动、登录、填写表单,从简单爬虫无法到达的网站提取数据。由两位苏黎世联邦理工学院研究员开发。MIT 许可证。

Crawlee。完整的专业爬取框架。轮换代理、自动重试、浏览器指纹伪装、队列管理。让你避免被封锁的机制。

Scrapy。最初的工业级爬虫,默默支持数据团队超过十年。爬取数百万页面,提取任何内容,干净导出。

MarkItDown。微软自己的工具,将任何文件或网页、PDF、Office 文档、HTML、图片转换为 AI 实际可以使用的干净 markdown。

Scrapling。一个隐形爬虫,设计保持隐身,自动适应网站布局变化,巧妙绕过机器人检测。

scrcpy。将任何 Android 手机镜像并控制,从你的电脑提取数据和自动化应用,无需任何网站。

AutoScraper。只需给出一个示例,它就能识别模式并自动爬取剩余内容。无需选择器,无需维护代码。

curl-impersonate。一个模仿真实浏览器指纹的 curl 版本,使请求能够绕过机器人防御,表现得就像打开 Chrome 的人类用户。

公司以每月 2000 美元的价格出售此类访问权限。源代码就在这里,免费。
查看原文
post-image
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论