10 個在 GitHub 上的倉庫,為你爬取整個互聯網。


收藏每一個。每個都能從地球上的任何網站提取乾淨的數據,這種訪問是公司在銷售電話和合同背後出售的。
Firecrawl。將它指向任何網站,它會爬取每一頁,渲染 JavaScript,並立即返回 AI 可以閱讀的乾淨結構化數據。目前是 AI 堆疊中最廣泛採用的爬取骨幹之一,完全開源。

Crawl4AI。將任何網站轉換為乾淨、適合大型語言模型的 Markdown。無需 API 密鑰,無需帳戶,無需每頁付費。擁有數萬顆星,是 GitHub 上增長最快的爬蟲之一。

browser-use。一個由 AI 驅動的代理,像人類一樣操作真實瀏覽器:點擊、滾動、登錄、填寫表單,抓取普通爬蟲無法觸及的網站數據。由兩位蘇黎世 ETH 的研究人員打造。MIT 授權。

Crawlee。完整的專業爬取框架。輪換代理、自動重試、瀏覽器指紋偽裝、隊列管理。讓你不被封鎖的機械裝置。

Scrapy。原始的工業級爬蟲,默默支撐著數據團隊超過十年。爬取數百萬頁,提取任何內容,乾淨導出。

MarkItDown。微軟自己的工具,將任何文件或網頁、PDF、Office 文檔、HTML、圖片轉換為 AI 真能用的乾淨 Markdown。

Scrapling。一個隱形爬蟲,設計為保持隱形,當網站布局變化時自動適應,並避開機器人檢測。

scrcpy。從電腦鏡像並控制任何 Android 手機,用於提取數據和自動化應用,完全不需要網站。

AutoScraper。只需給它一個範例,它就能找出規則並自動爬取剩餘內容。無需選擇器,無需維護代碼。

curl-impersonate。一個模仿真實瀏覽器指紋的 curl 版本,使請求能巧妙避開機器人防禦,看起來就像一個打開 Chrome 的人類。

公司每月以 2000 美元出售這樣的訪問權限。源碼就在這裡,免費。
查看原文
post-image
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆