После критики «отца раков» человеческого интернета, наконец-то кто-то взялся за это дело.

(来源:机器之心)

编辑|张倩

Не знаю, помните ли вы, но в прошлом марте AI-гик Карпаты опубликовал один твит. В общих чертах он имел в виду следующее: сейчас большинство контента по-прежнему пишется для людей, но в будущем эти материалы, возможно, будет читать не человек, а AI. Поэтому, начиная с этого момента, нам нужно думать о том, как писать документы более удобными для AI.

Честно говоря, когда я увидел этот взгляд, я тогда еще не осознал, что именно это означает. Возможно, так думали и многие другие пользователи: кто-то даже говорил, что «думать об этом пока рано — ведь сейчас в основном в интернет выходят люди».

Но всего за один короткий год ситуация изменилась. Многие уже попробовали «рак-оборудование»*, и теперь им даже лень самим разложить файлы на рабочем столе — не говоря уже о том, чтобы самим искать информацию в интернете, то есть заниматься такой грязной и тяжелой работой.

Почти наверняка можно сказать, что слова Карпаты о том, что «AI станет основным контингентом в интернете», очень скоро станут реальностью — ведь человек, попробовавший сладкое, уже не может вернуться назад. А что сейчас происходит в нашем интернете? Как сказал один пользователь: это всё еще «гравийная дорога эпохи карет».

Для агента* эта дорога везде создает препятствия: разные проверки и программы входа говорят «не пущу» — и стоят. Инструменты, найденные в сети, нужно пробовать один за другим. Токены используются так, словно денег не берут (хотя на самом деле это очень дорого). Даже если задача выполнена успешно, всё равно придется ждать полдня — как когда-то при дозвонном интернете.

Лю Хунтао, который прошел путь от эпохи PC-интернета и мобильного интернета, сказал мне: сейчас такая ситуация на самом деле неприемлема. Нужно понимать, что стандарт доступности человеческого интернета — 99,9%, и эти люди даже «бились» за то, чтобы к этому числу добавилось больше «9». А сейчас успешность вызова внешних инструментов агентом составляет всего 60% — и это результат для однократного вызова; если добавить еще несколько шагов, она падает ниже 30%.

Поэтому, когда «отец рака» Питер Штайнбергер* в интервью пожаловался, что инфраструктура интернета сейчас крайне «не дружественна» агентам, Лю Хунтао прямо ощутил сильное созвучие. И проблема, которую отметил Питер, — это как раз то предпринимательское направление, в которое он годом ранее «прицелился» и в которое официально вошел весной прошлого года: Agent Internet Infra.

Ключевая оценка Питера Штайнбергера такова: текущий интернет не был спроектирован для агентов и, из-за блокировок, капч, систем прав доступа, отсутствия CLI/API и подобных причин, становится всё более неблагоприятным для агентов; поэтому следующее поколение интернет/программной инфраструктуры должно быть заново реконструировано в сторону «agent-friendly». (Субтитры сгенерированы AI)

Лю Хунтао собрал новую компанию под названием AgentEarth. Трое из ядра команды — с очень солидным бэкграундом. Он сам раньше был президентом в облачном сервисе Yun Zhihui, умной операционной «единорог»-компании; он имел опыт масштабируемых валидаций корпоративной инфраструктуры с 0 до 1. CTO Дань Миньхуэй (Lucas) — один из ранних создателей системы интеллектуальной операционной деятельности Didi; у него есть опыт создания и эксплуатации реальных крупномасштабных систем сопоставления в реальном времени для сотен миллионов людей и огромного количества поездок. Главный научный сотрудник профессор Сю — много лет глубоко занимался передовыми сетевыми технологиями национального уровня; его сильная сторона — протокольный стек нижнего уровня.

CEO AgentEarth

Лю Хунтао (слева) и CTO Дань Миньхуэй (справа)

Такое сочетание очевидно не ради того, чтобы делать простой инструмент для агентов. По словам Лю Хунтао, они собираются делать инфраструктурную работу: проложить для Agent Internet скоростную «линию логистики» на уровне базовых технологий, чтобы передача данных шла надежно и быстро; а сверху открыть «премиальный магазин самообслуживания» — не для того, чтобы туда ходили люди, а чтобы обслуживать агента как реального конечного пользователя: заходишь в магазин — и можешь быстро вызывать отобранные и прошедшие модерацию качественные инструменты. Первая часть опирается на их новую генерацию протоколов передачи, над которыми они работали годами; вторая — на то, чтобы твердо реализовать агрегацию, хостинг и интеллектуальную оркестрацию инструментов, чтобы агент больше не метался как безголовый цыпленок, пробуя всё подряд и наталкиваясь на препятствия, экономя ценное время и токены.

Что именно они делают — Лю Хунтао тоже подробно рассказал.

Интернет, спроектированный для людей

слишком провален для агентов

В последнее время Anthropic и OpenAI снова подогрели одно слово — Harness Engineering. В блоге Anthropic написали: при одинаковой модели и одинаковых подсказках (prompt’ах) сначала получаются игры, в которые нельзя играть, но если поменять способ запуска и окружение, игра начинает получаться хорошей.

Эти передовые институты с помощью экспериментов напоминают всем: хотя улучшение самой модели крайне важно, внешняя среда вокруг модели тоже нельзя игнорировать — иначе это повлияет на то, как будут раскрываться способности большой модели.

Вот почему объясняется, что OpenAI еще в 2024 году объявляла: в некоторых аспектах большие модели достигли уровня способностей доктора; но до этого года на стороне производительности лишь начинались ощутимые ощущения.

Создание этой среды гораздо сложнее, чем кажется. За последние год-полтора инженеры в области Agent Infra уже пытались решать некоторые проблемы, например долгосрочное хранилище памяти и оркестрацию запуска, чтобы обеспечить агентам стабильную работу за счет систем базовой поддержки. Но эта волна «ракового ажиотажа» снова ярко выявила один недостаток — внешние вызовы. Знайте: даже для простой операции покупки билета агенту нужно вызвать десяток внешних инструментов. Поэтому, когда агент начинает «выходить в интернет по-человечески», сетевой уровень становится новой ареной.

Лю Хунтао говорит: чтобы встретить эту новую арену, соответствующее развитие инфраструктуры должно следовать новой логике, потому что поведение агента в интернете сильно отличается от человеческого.

Люди, выходя в интернет, открывают браузер, ищут ключевые слова, затем кликают по страницам, которые кажутся интересными. Далее начинается просмотр, размышление и оценка. Время, которое человек проводит на одной странице, может быть довольно долгим, но само поведение не такое уж сложное. Есть и кэширование вроде CDN (кэширование один раз — обслужить целую кучу людей), которое обеспечивает скорость. Есть продуманные UI, повышающие эффективность. И разнообразные инструменты — за много лет они стали привычными в использовании.

Но агент — другое дело. Он «не смотрит» интернет, а выходит, чтобы «сделать работу до конца». Инструменты, необходимые для его задачи, должны быть на нескольких моделях и платформах, цепочка выполнения получается длинной. Если где-то сбой — вся задача попадает в черную дыру проб и ошибок. Кроме того, к скорости у него требования выше, чем у людей: ему не нужно время реакции, он хочет, чтобы результат приходил как можно быстрее, чтобы тут же перейти к следующему шагу.

Однако реальность такова: большинство веб-страниц и инструментов в текущем интернете всё еще спроектированы для людей (как упомянул Питер в интервью: агенту на веб-странице приходится нажимать «Я не робот» и проходить такие проверки). Для агентов специально не отбирают и не адаптируют — поэтому длинные цепочки агента легко обрываются. Кроме того, часть вещей, которые агент забирает из интернета, вообще нужна только ему (например, генерация какой-то картинки), и другим это потом не подойдет, поэтому CDN не работает — скорость не может разогнаться.

Сложение этих особенностей приводит к тому, что инфраструктура «человеческого» интернета начинает в лице агентов «страдать от несовместимости». А сейчас Agent Internet находится на стадии дикого раннего развития: внешние инструменты — из какой попало серии, интерфейсы перепутаны, качество разное; в процессе вызовов агент часто «теряет разум»*, бесцельно сжигает огромное число токенов в повторных попытках и повторной передаче контекста, а скорость выполнения задач так и не растет.

К тому моменту становится совершенно ясно, что должно сделать направление Agent Internet Infra: оно должно предоставить базовые сетевые протоколы и систему middleware, благодаря которым огромные множества агентов смогут автономно находить друг друга, безопасно подключаться и вести доверенное сотрудничество; цель — решить, как агентам подключаться к внешним ресурсам и как агентам бесшовно сотрудничать друг с другом, как люди используют интернет. Ключевые возможности включают аутентификацию, коммуникационные протоколы, управление правами, вызов инструментов через платформы, оптимизацию передачи данных, платежи за транзакции, безопасное управление и т. д.

На данный момент уже есть компании, которые начинают работать в этом направлении. Например, Cloudflare выпустила Markdown for Agents, чтобы агенты могли удобно читать веб-страницы; Google выпустила WebMCP, который связывает среду браузера с локальными вычислительными ресурсами… Но в целом, по сравнению с общим ландшафтом, это всё еще ранняя стадия развития; в роли провайдеров следующего поколения Agent Internet Infra по-прежнему ощущается дефицит.

Интернет для агентов

Как сэкономить деньги и время?

В логике предпринимательства Лю Хунтао и других в направлении Agent Internet Infra есть один ключевой якорь: с первого дня считать агента основным пользователем сети, то есть end user (раньше по умолчанию считали человека). Это совпадает с оценкой Карпаты.

Как только этот якорь зафиксирован, направление оптимизации сетевой инфраструктуры меняется с «обслуживать опыт людей» на «обслуживать показатели успешности и эффективность выполнения задач»; с «платформа предоставляет подключение» на «платформа отвечает за результат». То есть они в основном рассматривают: сможет ли ваш «рак» с помощью их платформы качественно, надежно и эффективно выполнить задачу; и тогда они отвечают за ваш результат, и должны сэкономить вам деньги и время.

Самое важное — это не осталось на уровне концепции, а перешло в продуктовые решения.

Самое очевидное: они намеренно не делают интерфейсы для людей и не строят сложный developer experience, а создают только стандартизированные интерфейсы для агентов. За этим стоит очень твердое убеждение: в будущем не разработчики будут конфигурировать инструменты, а агент сам будет подбирать и собирать инструменты. Если вы верите в это, то все слои, созданные «для удобства человека», — это лишь краткосрочные переходные решения.

А как им удалось сделать «высокое качество и надежность» своим отличием? Здесь на самом деле три слоя технологического стека.

В среднем слое они перенесли проблему «качества инструментов» с стороны агента на сторону платформы. Сейчас в большинстве подходов агент сам выбирает инструменты, сам делает пробы и ошибки, и чтобы закрывать пробелы, тратит больше токенов. Итог — высокая стоимость, низкая успешность и отсутствие контроля. В этом слое они взяли всё это на себя: сделали для агента «единый шлюз» для доступа к внешним сервисам. То есть агенту не нужно знать, какие инструменты лучше — платформа уже выбрала и подстраховала; если случается сбой, она сразу переключает на другой вариант. Также расчет проходит унифицированно здесь же; данные прозрачны на 100%, и люди, стоящие за агентом, могут видеть: какие инструменты использовались и сколько вызовов было сделано; токены тратятся понятно и прозрачно — больше не «черная дыра», где утекли деньги.

А верхний слой сфокусирован на том, чтобы с помощью «логики self-operated» обеспечить раннее качество. С самого начала они не открывали экосистему, а сами выбирали инструменты: делали акцент на стабильности, эффективности и высоком качестве — как ранний магазин самообслуживания JD self-operated: его ядро было в том, чтобы помочь «ракам»* качественно завершать задачи. Когда появляется поток трафика, они тоже открывают для третьих сторон возможность размещаться, и применяют алгоритм рекомендации инструментов на основе большой модели и стратегии оптимизации вызовов — чтобы этот процесс был максимально интеллектуализирован.

Нижний слой — самый «жесткий»: они опускают «надежность» в транспортный слой, используя собственный протокол one-stop «передача — хранение — вычисление» для ускорения базовой передачи данных.

В тестировании в реальной среде этот протокол быстрее, чем текущие лучшие открытые протоколы в индустрии — Google QUIC — примерно в 2–10 раз; в недавних тестах даже было достигнуто более чем в десятки раз. То есть если ваш агент хочет передавать файлы, изображения, видео с удаленной стороны — особенно тот тип контента, который персонализирован и только что сгенерирован, — этот протокол будет намного быстрее, чем традиционные методы.

Инсайдеры наверняка знают: протокол — это согласованный набор самодостаточных правил, поэтому разработка протокола — это не работа на короткую дистанцию, ее нельзя разложить и параллелить на модули, как при разработке приложения. Создание нового протокола похоже на выращивание нового вида: его нужно начинать с семени и, соблюдая конкретный порядок, постепенно выращивать. Каждый этап должен дождаться полного «закрепления» предыдущего, и даже если собрать много инженеров, это не сжимает время «пока оно вырастет». Кроме того, в протокольном дизайне есть скрытые знания — например, крайние случаи сетевого поведения и те «грабли», на которые уже наступали — они копятся только за длительное время. Лю Хунтао говорит, что их протокол тоже не сделали за один день: цикл разработки — исчисляется десятилетиями. Самые ранние накопленные знания изначально были для оптимизации TCP/IP, но в итоге они превратились в ключевой технический барьер компании.

Потолок этого дела

может быть выше, чем кажется

В эпоху PC-интернета и мобильного интернета рост числа пользователей и времени онлайн, как правило, воспринимали как главную движущую силу роста всего рынка. Но когда два этих фактора приближаются к пределу, такой рост уже уперся в потолок.

Появление нового направления Agent Internet переписывает правила игры. Одна компания или один человек может развернуть сотни и тысячи агентов. Один агент может одновременно выполнять несколько задач. И этим агентам не нужно спать. Это значит, что верхний предел трафика и ценности, которую несет Agent Internet Infra, сейчас оценить еще сложно.

Это также означает, что в этом слое вполне легко вырастет целая партия новых больших компаний. Если посмотреть назад на PC-интернет и мобильный интернет, то почти на каждом уровне инфраструктуры в итоге появлялись отдельные независимые компании, потому что задачи были достаточно универсальными, а потребности — достаточно жесткими. Рано или поздно кто-то превращал это в платформу. Agent Internet — тоже так; и на этот раз масштаб пользователей и интенсивность вызовов будут еще более экстремальными, а многие базовые вопросы сейчас фактически «пустые», поэтому свободного места для новых игроков будет больше.

На этом стартовом этапе AgentEarth уже заняла неплохую позицию.

С одной стороны, они приняли решение относительно рано и довольно прямолинейно: изначально строили систему, исходя из принципа «агент — пользователь», делая акцент на высоконадежном и высококачественном выполнении задач агентом. С другой стороны, структура команды довольно редкая: возможности протокольного уровня не так просто догнать за короткое время, а люди, которые «воевали» в сценариях с «сотнями миллионов пользователей и массовым реальным временем сопоставления ресурсов», на самом деле встречаются нечасто. Для таких систем требования к стабильности, эффективности и отказоустойчивости крайне жесткие — в обычной жизни мало когда есть возможность действительно тренировать это. Но как только масштаб вызовов агентов начнет расти, такой опыт станет очень ценной валютой, и его нельзя будет восполнить быстро.

Вчера AgentEarth только что выпустила тестовую версию своего продукта и начала тестирование в малых масштабах. Ссылка на тестирование следующая: Agentearth.ai

Также заинтересованные читатели могут отсканировать QR-код и присоединиться к группе, чтобы обменяться опытом:

Огромные объемы информации, точные разборы — всё в приложении Sina Finance APP

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить