«Батько омарів» пожартував про людський інтернет, і нарешті хтось взявся за цю справу

(来源:机器之心)

Редактор|Чжан Цянь

Не знаю, чи пам’ятаєте ви, але минулого березня один з AI-гуру Карпати опублікував твіт. В загальному йшлося про те, що: більшість контенту зараз усе ще створюється для людей, але в майбутньому, ці дані читатимуть, імовірно, не люди, а AI. Тож, починаючи з цього моменту, потрібно думати над тим, як писати документи більш дружньо для AI.

Щиро кажучи, коли я тоді побачив(ла) цю думку, я ще не одразу зрозумів(ла), що вона означає. Багато користувачів, можливо, теж. Навіть хтось сказав, що «ще зарано про це думати, адже зараз основною аудиторією мережі все ще є люди».

Але всього за рік обставини змінилися. Багато хто вже встиг попробувати «Раку» і після цього навіть не хоче сам(а) впорядковувати файли на робочому столі, не кажучи вже про таку брудну й виснажливу роботу, як пошук інформації в інтернеті.

Майже напевно, те, про що говорив Карпати — «AI стане основною силою в інтернеті» — дуже швидко стане реальністю, адже люди, які вже скуштували солодке, не можуть повернутися назад. А в якому стані зараз наш інтернет? Як сказав один користувач: все ще «шлях зі щебеню епохи возів».

Для агентів цей шлях — суцільні зачепи: усілякі перевірки, програми логіна й реєстрації, що можуть підвести; знайдені в інтернеті інструменти треба тестувати по одному; токени витрачаються так, ніби це безкоштовно (хоча насправді дуже дорого); навіть якщо завдання вдалося виконати, все одно потрібно чекати пів дня — як колись під час діал-ап доступу.

З часів ери PC-інтернету та мобільного інтернету через це все пройшов Лю Хунтао, і він сказав мені: зараз така ситуація насправді є незадовільною. Адже критерій корисності людського інтернету — 99,9%, і ці люди навіть колись боролися за те, щоб додати до цього числа ще більше «9». А тепер успішність виклику зовнішніх інструментів агентами становить лише 60% — і це ще результат однокрокового виклику; якщо додати кілька кроків, показник падає нижче 30%.

Тому коли «батько Раки» Пітер Стейнбергер у інтерв’ю поскаржився на те, що інфраструктура інтернету нині є вкрай «недружньою» для агентів, у Лю Хунтао виникло дуже сильне відчуття співпереживання. А проблема, яку озвучив Пітер, якраз та, яку він рік тому вже побачив і вийшов реалізовувати цієї весни — стартапний напрям Agent Internet Infra.

Ключове міркування Пітера Стейнбергера таке: нинішній інтернет не був розроблений для агентів і стає все більш невигідним для них через блокування, CAPTCHA, систему прав доступу, брак CLI/API тощо; тому наступна генерація інтернету/програмної інфраструктури має бути перебудована в бік agent-friendly.(субтитри згенеровано AI)

Нову компанію, яку зібрав Лю Хунтао, назвали AgentEarth. Ключова команда з трьох людей має дуже ґрунтовні резюме. Він сам свого часу обіймав посаду президента в «Хмарній Смарт-операції» — інтелектуальному автономному сервісі; має досвід масштабованої верифікації корпоративної інфраструктури від 0 до 1. CTO Дан Міньхуй (Lucas) — один із перших, хто будував систему інтелектуального операційного керування Didi; він має досвід створення й експлуатації систем реального часу великого масштабу для мільйонів людей і масивного підбору поїздок. Головний науковий співробітник, професор Сюе, багато років заглиблювався в мережеві технології державного рівня; стеки протоколів на нижньому рівні — його сильна сторона.

CEO AgentEarth

Лю Хунтао (ліворуч) і CTO Дан Міньхуй (праворуч)

Такий склад явно не спрямований на створення простого агентного інструменту. За словами Лю Хунтао, вони займаються справами інфраструктури: на нижньому рівні для Agent Internet прокладають високошвидкісну «лінію логістики», щоб передавання даних працювало і стабільно, і швидко; зверху вони відкривають «вітрину з преміальним власним товаром» — не для того, щоб люди ходили й дивилися, а щоб обслуговувати агента як справжнього кінцевого користувача: заходиш — і можеш швидко викликати відфільтровані та керовані інструменти високої якості. Перша частина спирається на їхні нові покоління протоколів передавання, які вони розробляли багато років; друга — це якісно зроблений набір: агрегація інструментів, хостинг, інтелектуальна оркестрація, щоб агент більше не бігав як безголовий кур’єр, тестуючи все підряд і врізаючись у проблеми, заощаджуючи дорогоцінний час і токени.

Що саме вони роблять — Лю Хунтао також детально розповів.

Інтернет, створений не для людей

Для агентів надто боляче

Нещодавно Anthropic та OpenAI знову «розігріли» одне слово — Harness Engineering. У своєму блозі Anthropic каже: за однакових моделей і однакових підказок на старті гра, яку отримуєш, може бути непідконтрольною — але якщо змінити спосіб виконання та середовище, можна отримати хорошу гру.

Ці передові організації експериментами натякнули всім — хоча покращення самої моделі надзвичайно важливе, зовнішнє середовище, в якому модель працює, теж не можна ігнорувати, інакше воно вплине на здатність великих моделей розкриватися.

Це також пояснює, чому OpenAI ще у 2024 році заявляв(ла), що великі моделі за деякими аспектами досягли рівня, порівняного з доктором, але лише цього року продуктивність на практиці почала відчуватися «по-справжньому».

Побудова цього середовища значно складніша, ніж може здаватися. Протягом останніх пари років інженери в галузі Agent Infra вже намагалися вирішити деякі проблеми — зберігання довготривалої пам’яті, оркестрацію виконання — щоб дати агентам базову систему для стабільної роботи. Але ця «ракова хвиля» (завдяки експериментам) ще чіткіше оголила слабке місце — зовнішні виклики. Знайте: навіть проста операція бронювання квитків вимагає десятків викликів зовнішніх інструментів. Тож коли агенти починають «ходити в інтернет як люди», мережевий рівень стає новим полем бою.

Лю Хунтао зазначив(ла), що щодо цього нового поля бою відповідна інфраструктурна розбудова має слідувати новій логіці, адже інтернет-поведінка агентів і людей — це дві зовсім різні речі.

Люди, коли виходять в інтернет, відкривають браузер, шукають ключові слова, а потім натискають на сторінки, які їх цікавлять. Далі це перегляд, міркування, оцінювання. Люди проводять на одній сторінці більше часу, але загалом їхня дія в інтернеті не така складна: є CDN (кешування на користь багатьох), яке гарантує швидкість, є досконало продумані UI, щоб підвищити ефективність, а також різні інструменти, які роками використовуються доволі зручно.

Але агенти не такі: вони «не заходять подивитися». Вони заходять, щоб «виконати роботу». Інструменти, необхідні для задачі, можуть охоплювати кілька моделей і платформ, ланцюжок виконання довгий; якщо десь «застрягне», вся задача потрапляє в чорну діру спроб і помилок. Крім того, до швидкості вимоги в них навіть вищі, ніж у людей: агенту не потрібен час реакції — йому потрібен результат якнайшвидше, щоб одразу перейти до наступного кроку.

Але реальність така, що більшість сторінок і інструментів в поточному інтернеті все ще створено для людей (як у інтерв’ю згадував Пітер: агенту потрібно натискати на сторінці перевірку типу «Я не робот»), і не було зроблено добірку/адаптацію спеціально під агентів, тож довгі ланцюги агентів дуже легко обриваються. До того ж те, що агент «забирає» з інтернету, частково взагалі є лише тим, що потрібно йому самому (наприклад, створити певне зображення); іншим це потім не придатне, тож CDN втрачає ефект — і швидкість не може рости.

У поєднанні ці риси призводять до того, що інфраструктура людського інтернету починає «не підходити за умовами» агентам. А агентний інтернет нині ще на стадії дикого росту: зовнішні інструменти з рибальських мішків, інтерфейси хаотичні, якість нерівномірна; у процесі викликів агенти регулярно «втрачають розум», даремно спалюють багато токенів у безкінечних спробах і повторному передаванні контексту, а швидкість завершення задач не піднімається.

Тож на цьому рівні стає дуже зрозуміло, що має зробити Agent Internet Infra: воно має забезпечити базові мережеві протоколи та middleware, завдяки яким величезна кількість агентів зможе автономно знаходити одне одного, безпечно з’єднуватися та довірено співпрацювати. Ціль — вирішити, як агентам підключатися до зовнішніх сервісів, і як агенти можуть безшовно співпрацювати між собою так само, як люди працюють з інтернетом. Його ключові можливості включають автентифікацію, комунікаційні протоколи, керування правами доступу, виклики інструментів через платформи, оптимізацію передавання даних, транзакції й оплати, безпеку тощо.

Наразі вже є компанії, які починають працювати в цьому напрямі: наприклад, Cloudflare випустила Markdown for Agents, зручний для агентів, щоб читати вебсторінки; Google опублікувала WebMCP, що поєднує середовище браузера з локальними обчислювальними ресурсами… Але загалом, цей напрям усе ще на ранній стадії розвитку, і поки що відсутній провайдер наступного покоління Agent Internet Infra.

Інтернет для агентів

Як заощадити гроші й час?

У напрямі Agent Internet Infra підприємницька логіка Лю Хунтао та інших має один ключовий «якір»: з першого дня сприймати агента як основного користувача мережі — тобто end user (раніше за замовчуванням це були люди). Це збігається з оцінкою Карпаті.

Як тільки взяти цей «якір», напрям оптимізації мережевої інфраструктури переходить з «покращення досвіду для людей» на «обслуговування показника завершення задач і ефективності завершення», з «платформа дає підключення» на «платформа відповідає за результат». Тобто вони в першу чергу розглядають: чи зможе твій «Рак» із допомогою їхньої платформи якісно, надійно та ефективно виконувати завдання; і я говоритиму за твій результат, я маю тобі заощадити гроші та час.

Найважливіше: ця ідея не залишилася лише концепцією, вона втілилася в продуктні рішення.

Найочевидніше — вони навмисно не роблять інтерфейси для людей, не роблять складний «девелоперський досвід», а зосереджуються лише на стандартизованих інтерфейсах для агентів. За цим стоїть дуже чітке судження: у майбутньому не розробники будуть налаштовувати інструменти, а сам агент збирати й «підключати» інструменти. Якщо ви вірите в це, то всі рівні, які створювалися для «зручності людей у керуванні», — це лише короткостроковий перехід.

Тоді як вони зробили «високу якість і надійність» своїм диференціатором? Тут насправді є три рівні техстеку.

На середньому рівні вони перенесли «проблеми якості інструментів» з боку агента на бік платформи. Зараз в моді підхід, коли агент сам підбирає інструменти, пробує їх, витрачає більше токенів, щоб залатати діри. В результаті: вартість висока, успішність низька, і до того ж немає контролю. На цьому рівні вони взяли контроль на себе: для агентів вони зробили «єдиний шлюз доступу до зовнішніх сервісів». Тобто агенту не треба знати, який інструмент хороший — платформа вже обрала і підстрахувала; якщо щось піде не так, вона одразу перемкне. Розрахунки також уніфіковані тут, дані прозорі від початку до кінця: людина за агентом бачить, які інструменти використовувалися і скільки разів викликали, токени витрачені зрозуміло — і вже не є «чорною дірою» для поїдання грошей.

А верхній рівень присвячений тому, щоб забезпечити ранню якість через «власну монополію» (само-ринкову модель). Спочатку вони не відкривали екосистему, а самі вибирали інструменти, робили акцент на стабільність, ефективність і високу якість — як ранній 京东自营 (JD власний) маркетплейс: його ключова роль — допомогти «Роакам» якісно завершувати завдання. Коли з’явився трафік, вони також відкривали вхід для сторонніх партнерів, і застосовували алгоритм рекомендації інструментів на базі великої моделі та стратегії оптимізації викликів, щоб цей процес був максимально інтелектуалізований.

Нижній рівень — той, який вони вважають найбільш «жорстким»: вони опустили «надійність» у рівень передавання, використавши власнорозроблений протокол єдиного планування для «передай — збережи — обчисли». Це прискорює передавання даних на нижньому рівні.

У тестах в реальному середовищі цей протокол швидший у 2–10 разів, ніж нині найкращі в індустрії open-source протоколи — Google QUIC; нещодавні тести навіть показали до десятків разів. Тобто якщо ваш агент хоче забрати з віддаленого місця файли, зображення, відео, особливо той тип контенту, що щойно згенерований під конкретного користувача, цей протокол буде значно швидшим за традиційні способи.

В середовищі ті, хто «в курсі», мабуть, знають, що протоколи — це система самозгоджених правил, тож розробка протоколів не є короткостроковою роботою: як у випадку з додатками, неможливо розбити на модулі й вести паралельно. Створення нового протоколу схоже на вирощування нового виду: потрібно почати з насінини і далі поступово «відростити» за заданою послідовністю. Кожен етап має чекати, поки попередній повністю не стане усталеним, і навіть купа інженерів не скорочує час «поки воно виросте». Крім того, в дизайні протоколів є приховані знання — наприклад, крайні випадки мережевої поведінки, якими довелося «наступити на граблі» — і їх можна отримати лише шляхом тривалого накопичення. Лю Хунтао каже, що їхній протокол теж не створили за раз: цикл розробки — це вимірювання десятками років. Найраніші накопичення досвіду були на оптимізацію TCP/IP, але в підсумку це стало основним технологічним бар’єром компанії.

Це вершина

Можливо, вища, ніж здається

У еру PC-інтернету та мобільного інтернету зростання числа інтернет-користувачів і часу, який кожен з них проводить в інтернеті, часто вважалися ключовою рушійною силою росту всього ринку. Але коли обидва показники наближаються до межі, таке зростання вже вперлося в «стелю».

Поява нового сегмента Agent Internet переписує правила гри. Одна компанія або навіть одна людина може розгорнути сотні й тисячі агентів; один агент може одночасно виконувати багато задач; і ці агенти навіть не потребують сну. Це означає, що верхня межа трафіку й цінності, яку несе Agent Internet Infra, зараз ще складно оцінити.

Це також означає, що на цьому рівні дуже легко виросте ціла когорта нових великих компаній. Якщо подивитися назад на PC-інтернет і мобільний інтернет, то майже на кожному рівні інфраструктури зрештою з’являлися окремі незалежні компанії — тому що проблема була достатньо універсальною, а потреба достатньо жорсткою; рано чи пізно хтось перетворював це на платформу. Agent Internet — не виняток. Ба більше, цього разу розмір користувачів і інтенсивність викликів будуть ще більш екстремальними, і багато базових проблем — порожні, «вакантні місця» лишається більше.

На етапі, що тільки стартував, AgentEarth уже зайняла досить непогану позицію.

З одного боку, вони визначилися досить рано і досить рішуче: з початку будували систему, виходячи з того, що «агент — це користувач», і концентрувалися на надійному та якісному виконанні агентом задач. З іншого боку, структура команди досить нетипова: здатність на рівні протоколів складно наздогнати за короткий час, а ті, хто вже бився в сценаріях «сотні мільйонів користувачів і реальний час масивного підбору ресурсів», справді рідкісні. Такі системи висувають дуже екстремальні вимоги до стабільності, ефективності та толерантності до відмов. У будні в них рідко з’являється можливість «відточувати майстерність». Але коли масштаби викликів агентів зростуть, цей досвід стане надзвичайно цінним — і його точно не можна швидко «добрати» за короткий час.

Вчора AgentEarth щойно опублікувала тестову версію продукту та почала тестування в малих масштабах. Посилання на тест таке: Agentearth.ai

Читачі, яким цікаво, також можуть відсканувати QR-код і приєднатися до групи, щоб обговорити досвід:

Масивні новини, точний розбір — усе в додатку Sina Finance APP

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити