10 DỰ ÁN GITHUB CÀO DỮ LIỆU TOÀN BỘ INTERNET CHO BẠN.


Đánh dấu từng cái một. Mỗi cái lấy dữ liệu sạch từ bất kỳ trang web nào trên thế giới, loại truy cập mà các công ty bán sau một cuộc gọi bán hàng và hợp đồng.
Firecrawl. Chỉ định nó vào bất kỳ trang web nào và nó quét tất cả các trang, render JavaScript, và trả lại dữ liệu sạch có cấu trúc mà AI có thể đọc ngay lập tức. Một trong những nền tảng scraping được sử dụng rộng rãi nhất trong hệ sinh thái AI hiện nay, hoàn toàn mã nguồn mở.

Crawl4AI. Biến bất kỳ trang nào thành markdown sạch, sẵn sàng cho LLM. Không cần API key, không cần tài khoản, không phí theo trang. Hàng chục nghìn sao và là một trong những trình thu thập dữ liệu phát triển nhanh nhất trên GitHub.

browser-use. Một tác nhân AI điều khiển trình duyệt thực như con người: nhấp, cuộn, đăng nhập, điền biểu mẫu, lấy dữ liệu từ các trang mà trình thu thập đơn giản không thể tiếp cận. Được xây dựng bởi hai nhà nghiên cứu ETH Zurich. Giấy phép MIT.

Crawlee. Khung công tác thu thập dữ liệu chuyên nghiệp đầy đủ. Proxy luân phiên, thử lại tự động, giả mạo dấu vân tay trình duyệt, quản lý hàng đợi. Cơ chế giúp bạn tránh bị chặn.

Scrapy. Trình thu thập dữ liệu mạnh mẽ ban đầu, đã âm thầm hỗ trợ các nhóm dữ liệu hơn một thập kỷ. Quét hàng triệu trang, trích xuất bất cứ thứ gì, xuất dữ liệu sạch.

MarkItDown. Công cụ của Microsoft chuyển đổi bất kỳ tệp hoặc trang web nào, PDF, tài liệu Office, HTML, hình ảnh, thành markdown sạch mà AI có thể sử dụng thực sự.

Scrapling. Một trình thu thập ẩn được xây dựng để giữ bí mật, tự thích nghi khi trang web thay đổi bố cục và vượt qua các biện pháp phát hiện bot.

scrcpy. Gương và điều khiển bất kỳ điện thoại Android nào từ máy tính của bạn để lấy dữ liệu và tự động hóa ứng dụng mà không cần trang web nào cả.

AutoScraper. Cho nó một ví dụ về thứ bạn muốn và nó sẽ tìm ra mẫu và tự động quét phần còn lại. Không cần trình chọn, không cần mã để duy trì.

curl-impersonate. Phiên bản của curl mô phỏng dấu vân tay của trình duyệt thực để các yêu cầu vượt qua các biện pháp chống bot, trông giống hệt như một người dùng Chrome mở.

Các công ty bán quyền truy cập như thế này với giá 2.000 đô la mỗi tháng. Mã nguồn nằm ngay đây, miễn phí.
Xem bản gốc
post-image
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim