Хто вже займався збором контенту або даних за допомогою AI-агента, знає, що скрапінг веб-сторінок — це найбрудніша і найважча робота.


У моєму звичайному робочому процесі я використовую cookie Chrome для збору даних: коли cookie закінчує термін дії — все, дані зникають; при зустрічі з Cloudflare або сайтами з жорстким захистом від爬爬 — отримую 403; контент з X взагалі окрема історія — сесії часто втрачаються, ліміти API швидко закінчуються, і доводиться шукати нові рішення.
Коли приходить посилання, потрібно підготувати три-чотири рівні резервних планів, і все одно іноді на останньому рівні не вдається зібрати дані. Витрачаю більше зусиль на те, щоб "дати дані" — ніж на те, щоб працювати з ними.
Я спробував XCrawl і додав його навички до мого OpenClaw бота.
Перше тестування — сказав боту "збери контент ", і він повернув структурований markdown з прогнозами, обсягами торгів, часом закінчення для десятків ринків. Для динамічно рендерених JS-сторінок — один запит.
Друге тестування — вставив посилання на свою статтю в X. Із тисячами слів — повернулися перегляди, лайки, закладки. Контент X — відомий складний для скрапінгу, раніше доводилося писати окрему логіку, а тепер — одна фраза.
Загалом, кожен запит споживає 1-2 кредити. Вбудований проксі-сервер і JS-рендеринг — не потрібно налаштовувати власну інфраструктуру. Вихідний markdown можна одразу подавати до LLM або зберігати у базу даних — без додаткової очистки.
API підтримує п’ять режимів — скрапінг однієї сторінки, повний сайт, карта сайту, пошук, SERP — покривають більшість щоденних сценаріїв збору.
Користувачі OpenClaw можуть просто додати навички й користуватися — реєстрація дає 1000 кредитів, достатньо на деякий час.
Чесно кажучи, цю базову інфраструктуру для збору даних давно вже потрібно було зробити сервісом. Самостійне налаштування — дорого і виснажливо у підтримці. Використовуй за потребою — і час, що зекономлений, можна витратити на справді цінні аналітику і прийняття рішень.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити