そこで、「ザリガニの父」ことピーター・シュタインベルガー(Peter Steinberger)がインタビューで、現在のインターネット基盤がエージェントにとって極めて「不親切」だと愚痴ったのを聞いて、リュウ・ホンタンは強く共感しました。そしてピーターが指摘した問題こそ、彼が前年から見通しを立て、去年の春に正式に参入した起業の方向性――Agent Internet Infraです。
ここまでで、Agent Internet Infra がやるべきことは非常に明確です。すなわち、膨大なスマートエージェントが自律的に発見し、安全に接続し、信頼できる協働を行えるようにするための、基盤となるネットワークプロトコルとミドルウェア体系を提供することです。エージェントが外部にどう接続するのか、エージェント同士が人間がインターネットを使うのと同じようにシームレスに協働するにはどうすればいいのか、という問題を解決することに注力します。その中核機能には、本人確認、通信プロトコル、権限ガバナンス、クロスプラットフォームでのツール呼び出し、データ伝送最適化、取引支払い、安全管理などが含まれます。
現在、この方向に取り組み始めている企業もいくつかあります。たとえばCloudflareは、エージェントがWebページを読みやすくするMarkdown for Agentsを公開し、Googleはブラウザ環境とローカルの計算リソースをつなぐWebMCPを公開しました。ですが全体として見ると、この方向性はまだ初期の発展段階にあり、新世代のAgent Internet Infraのサービス提供者はまだ欠けています。
エージェントのためのインターネット
どうやってお金と時間を節約するのか?
Agent Internet Infra という方向性で、リュウ・ホンタンらの起業ロジックには、ひとつの重要なアンカー(軸)があります。つまり初日から、エージェントをネットワークの主体的な“ユーザー”として扱うこと――end user(従来は人間がデフォルトだった)にすることです。これはKarpathyの判断と一致しています。
Agent Internetという新しい競争領域の登場は、ゲームのルールを書き換えています。1社、あるいは1人の単位で数百〜数千のエージェントをデプロイでき、さらに1つのエージェントで複数のタスクを同時に走らせることもでき、それらのエージェントは眠る必要がありません。つまり、Agent Internet Infraが担うトラフィックと価値の上限は、現時点ではまだ見積もりにくいのです。
「ロブスターの父」人類のインターネットを嘆いた後、ついに誰かがそれを本気で取り組んだ
(出典:ミート・ジーチー)
編集|張倩
みなさん、去年3月にAIの大物カープスキー(Karpathy)が投稿したツイートを覚えていますか。大まかに言うと、「今の大多数のコンテンツは人間のために書かれているが、将来的にはそれらを読むのが人間ではなくAIになるかもしれない。だから、これからは文書をAIにとってより親しみやすく書く方法を考えるべきだ」という趣旨です。
正直に言うと、その見解を見た当時、私はまだそれが何を意味するのかピンと来ていませんでした。多くのネットユーザーも同じだったかもしれませんし、「今考えるにはまだ早い。だって今ネットで使っている主な相手は人間だ」と言う人までいました。
しかし、たった1年で状況は変わりました。「ザリガニ(龍虾)」を体験した多くの人が、デスクトップのファイルを整理するだけでも自分でやるのが面倒になってしまい、ましてやネットで資料を探すような汚れ仕事・重労働など、なおさらやりたがらないのです。
ほぼ確実なのは、カープスキーが言った「AIがネットの主力になる」ということが、すぐに現実になるということです。甘い経験をした人間はもう後戻りできません。そして、私たちのインターネットは今どうなっているのでしょうか。あるネットユーザーが言うように――「馬車時代の砂利道」のままなのです。
エージェントにとって、この道はあちこちでつまずきだらけです。さまざまな検証やログイン処理で引っかかる、ネットで見つけたツールを一つずつ試す必要がある、tokenの使い方はまるで無料みたいに見える(実際はとても高い)。タスクが成功しても、半日待たされることすらあり、まるで昔のダイヤルアップのようです。
PCインターネット、モバイルインターネットの時代を通ってきたリュウ・ホンタン(刘洪涛)が私に言いました。「今のこの状況は、実際のところ受け入れがたい」と。なぜなら、人間向けインターネットの可用性の基準は99.9%で、彼らはこの数字にさらに多くの「9」を足すために死力を尽くしたことすらあるからです。一方で、エージェントが外部ツールを呼び出す成功率は60%にすぎず、しかもこれは単発呼び出しの結果。さらに数ステップ増えると、30%未満まで落ちてしまいます。
そこで、「ザリガニの父」ことピーター・シュタインベルガー(Peter Steinberger)がインタビューで、現在のインターネット基盤がエージェントにとって極めて「不親切」だと愚痴ったのを聞いて、リュウ・ホンタンは強く共感しました。そしてピーターが指摘した問題こそ、彼が前年から見通しを立て、去年の春に正式に参入した起業の方向性――Agent Internet Infraです。
ピーター・シュタインベルガーの中核判断はこうです。現在のインターネットはそもそもagent向けに設計されておらず、さらに封鎖、CAPTCHA、権限体系、CLI/APIの欠落などの理由で、agentにとってますます不利になっている。したがって、次世代のインターネット/ソフトウェア基盤は、agent-friendlyな方向へ再構築されなければならない。(字幕はAIが生成)
リュウ・ホンタンが組成した新会社の名前は AgentEarth。コアチームの3人の経歴はいずれも非常にしっかりしています。彼自身は知能運用のユニコーン企業「雲智慧(クラウドスマート)」で社長を務め、企業レベルの基盤インフラを0から1へとスケールさせるための大規模検証を経験しました。CTOのシン・ミンフイ(Lucas、単明辉)は滴滴のスマート化運用システムの初期構築者で、何億人ものユーザーと大量の配車を扱うリアルタイムの大型マッチングシステムを構築・運用した経験があります。チーフサイエンティストのシュエ教授(薛教授)は国家レベルの最先端ネットワーク技術を長年深掘りしており、基盤プロトコルスタックが強みです。
AgentEarth CEO
リュウ・ホンタン(左)と CTO シン・ミンフイ(右)
このような組み合わせが、明らかに「単純なエージェントツールを作る」ことを狙っているわけではありません。リュウ・ホンタンの言葉を借りると、彼らがやるのはインフラの仕事です。底層でAgent Internetに高速の物流線を引いて、データ伝送を安定かつ高速に動かす。上層では「こだわりの直営店」を開く――人が買い物に行くためではなく、エージェントを“真のエンドユーザー”として扱ってサービスを提供するためです。店に入れば、選別・統治(ガバナンス)された高品質ツールをすぐに呼び出せます。前者は彼らが長年研究してきた次世代の伝送プロトコルに頼ります。後者は、ツールの集約、ホスティング、インテリジェントなオーケストレーションをしっかり固めて、エージェントが無頭のヒョウロウ(はえ)みたいにあちこち試してあちこちぶつかり続けなくて済むようにし、貴重な時間とtokenを節約します。
具体的にどうやるのかについて、リュウ・ホンタンも詳しく語ってくれました。
人間向けに設計されたインターネット
エージェントにとっては罠すぎる
最近、AnthropicやOpenAIがまた新しい言葉を広めました。それがHarness Engineeringです。Anthropicはブログで、同じモデルで同じプロンプトでも、最初に走らせた方式では出てくるゲームはプレイできないが、別の実行方式や環境に変えると、きちんとしたゲームとして動かせる、と述べています。
これらの最先端機関は実験で警鐘を鳴らしています――モデルそのものの改良は重要ですが、モデルの“稼働”を取り巻く外部環境も無視できません。さもなければ、大規模モデルの能力の発揮に影響します。
それが、なぜOpenAIが2024年にはすでに「大規模モデルが特定分野で博士レベルに達した」と宣言していたのに、今年になってようやく“生産力側”で実感として体感できるようになったのかの説明にもなります。
この環境づくりは、想像よりずっと複雑です。過去1〜2年でAgent Infra領域のエンジニアたちは、長期記憶ストレージや実行オーケストレーションなど、エージェントを安定して動かすための基盤サポートシステムを解決しようと試みてきました。しかし、この「ザリガニ熱」が逆に、ある短所を十分に露呈させました――外部呼び出しです。たとえ単純なチケット予約操作でも、エージェントは十数回の外部ツール呼び出しが必要です。だから、エージェントが人間のように「ネットで用事を済ませる」ようになった瞬間、ネットワーク層が新たな戦場になります。
リュウ・ホンタンは、この新しい戦場に対して関連する基盤インフラ構築は新しいロジックに従う必要があると述べました。なぜなら、エージェントの“ネット行動”は、人間とはまるで違うからです。
人間がネットを見るときは、ブラウザを開いてキーワードを検索し、自分が興味を持ったWebページを開きます。次に、閲覧し、考え、判断します。人は単一のWebページに留まる時間が比較的長い一方で、ネット全体の行動は大して複雑ではありません。さらに、CDN(キャッシュ一次で大勢にサービス)などのキャッシュ技術で速度は担保できるし、効率を高める精巧なUIがあり、各種ツールも長年使ってきていて扱いやすい。
しかし Agent は違います。Agentはネットを「見る」ためではなく、「用事を終わらせる」ためにネットへ行きます。タスクに必要なツールは複数のモデルやプラットフォームにまたがり、実行チェーンはとても長い。どこか一箇所で詰まれば、タスク全体が試行錯誤のブラックホールに落ち込みます。さらに、速度に対する要求はむしろ人間より高い。人間のように反応時間は必要なく、結果がより速く欲しい。すぐ次のステップへ進みたいからです。
ところが現実には、現在のインターネット上のWebページやツールの多くは、まだ人間向けに作られています(ピーターのインタビューで言及されたように、エージェントがWebページ上で「私はロボットではありません」といった検証をクリックする必要がある等)。エージェント向けに厳選・適応されていないため、エージェントの長いチェーンは簡単に切れてしまいます。加えて、エージェントがネットで取りに行くものの中には、自分が必要とするだけのものもあります(例えば特定の画像を生成する等)。それを使い終わったら他人は使えない。だからCDNは機能しなくなり、速度も上がりません。
これらの特性が重なることで、人間向けのインターネット基盤がエージェントの前で「水が合わない」状態になります。しかも今のAgent Internetは、まだ“野蛮な成長期”です。外部ツールは玉石混交で、インターフェースはぐちゃぐちゃで、品質にもばらつきがあり、エージェントは呼び出しの過程で頻繁に「判断力を失い」ます。繰り返す試行錯誤やコンテキストの重複送信で、無駄に大量のtokenを焼き、タスク完了のスピードも上がりません。
ここまでで、Agent Internet Infra がやるべきことは非常に明確です。すなわち、膨大なスマートエージェントが自律的に発見し、安全に接続し、信頼できる協働を行えるようにするための、基盤となるネットワークプロトコルとミドルウェア体系を提供することです。エージェントが外部にどう接続するのか、エージェント同士が人間がインターネットを使うのと同じようにシームレスに協働するにはどうすればいいのか、という問題を解決することに注力します。その中核機能には、本人確認、通信プロトコル、権限ガバナンス、クロスプラットフォームでのツール呼び出し、データ伝送最適化、取引支払い、安全管理などが含まれます。
現在、この方向に取り組み始めている企業もいくつかあります。たとえばCloudflareは、エージェントがWebページを読みやすくするMarkdown for Agentsを公開し、Googleはブラウザ環境とローカルの計算リソースをつなぐWebMCPを公開しました。ですが全体として見ると、この方向性はまだ初期の発展段階にあり、新世代のAgent Internet Infraのサービス提供者はまだ欠けています。
エージェントのためのインターネット
どうやってお金と時間を節約するのか?
Agent Internet Infra という方向性で、リュウ・ホンタンらの起業ロジックには、ひとつの重要なアンカー(軸)があります。つまり初日から、エージェントをネットワークの主体的な“ユーザー”として扱うこと――end user(従来は人間がデフォルトだった)にすることです。これはKarpathyの判断と一致しています。
この前提に立つと、ネットワーク基盤の最適化の方向性が、「人間の体験のため」から「タスク完了率と完了効率のため」へ変わり、「接続を提供するプラットフォーム」から「結果に対して責任を負うプラットフォーム」へ変わります。つまり彼らが主に考えるのはこういうことです。あなたの「ザリガニ」が、私のプラットフォームの力を借りて、高品質・高信頼・高効率でタスクを完了できるか。私はあなたの結果に責任を持ちます。あなたのためにお金と時間を節約するべきです。
もっとも重要なのは、この点が概念に留まらず、プロダクトの意思決定まで落ちていることです。
最も分かりやすいのは、彼らが意図的に人間向けのインターフェースを作らず、複雑な開発者体験もしないことです。代わりに作るのは、標準化されたエージェントのインターフェースだけです。その背後には、かなり確信を持った判断があります。未来は開発者がツールを設定するのではなく、エージェント自身がツールを“組み立てる”のです。もしこれを信じるなら、「人間が操作しやすい」ように設計されたレイヤーは、すべて短期的なつなぎにすぎません。
では、どうやって「高品質・高信頼」を差別化要因として実現したのか。ここには実は3層の技術スタックがあります。
真ん中の層では、「ツール品質の問題」をエージェント側からプラットフォーム側へ移しました。現在の主流のやり方は、エージェント自身にツールを選ばせて試行錯誤させ、より多くのtokenで穴埋めさせることです。その結果、コストは高く成功率は低く、しかも制御不能です。この層では、その問題を引き受けて、エージェントのために外部サービスへアクセスする「単一ゲートウェイ」を用意しました。つまりエージェントは、どのツールが良いのかを知る必要がなく、プラットフォームがすでに選定し、フォールバックも用意している。故障が起こればすぐ切り替わります。精算もここで統一して行い、データはすべて透明。エージェントの背後にいる人は、どのツールを使ったのか、何回呼び出したのか、そしてtokenをどれだけ使ったのかまで明確に見られ、もはや金を飲み込むブラックホールではありません。
そして、その上の層は「直営(自営)のロジック」を使って初期品質を担保することに注力しています。彼らは当初、オープンなエコシステムではなく、自分たちでツールを選びます。安定性、高効率、高品質を強調し、初期の京東の直営マーケットプレイスのように、コアは「ザリガニ」たちが高品質にタスクを完了できるように助力することです。流量が生まれた後は、第三者の出店も開放し、大規模モデルに基づくツール推奨アルゴリズムと呼び出し最適化戦略を採用して、そのプロセスを高度にインテリジェント化します。
下の層も、彼らが最も硬派(ハードコア)なところで、「信頼性」を伝送層へ沈めます。自社開発の「伝送 - 保管(ストレージ) - 演算(計算)一体化のスケジューリング・プロトコル」で基盤のデータ伝送を高速化します。
実環境でのテストでは、このプロトコルは現在業界で最も優れたオープンソースプロトコル――Google QUIC――より2〜10倍速く、最近のテストではさらに十数倍に達したこともあります。つまり、あなたのエージェントが遠隔からファイル、画像、動画を取りに行く場合、特に個別に生成されたばかりのコンテンツなら、このプロトコルは従来方式よりはるかに速いということです。
業界の人ならプロトコルのことを知っているはずですが、プロトコルというのは、整合性のある一連のルール体系です。だからプロトコル開発は短期の仕事ではなく、アプリを書くみたいにモジュールに分けて並行推進することはできません。新プロトコルを作るのは、新しい生物を育てるようなものです。種から始め、特定の順序でゆっくり成長させていく必要があります。どの工程も、前の工程が完全に固まるまで待たなければ動けません。エンジニアを何人増やしても、「大きく育つまで待つ時間」は圧縮できません。さらに、プロトコル設計に含まれる暗黙の知識――ネットワーク行動の周辺ケース、踏んだ罠――は、長期の蓄積によってしか得られません。リュウ・ホンタンは、このプロトコルも一朝一夕で作ったものではないと言います。開発サイクルはすべて10年単位で、最初の経験の蓄積はTCP/IPを最適化するためのものだったのに、いまや会社のコア技術の参入障壁になっているのです。
これは、その天井は
想像以上に高いかもしれない
PCインターネット、モバイルインターネットの時代には、ネットユーザー数や、1人あたりのネット利用時間の増加が、マーケット成長の中核動力と見なされることが多かったのです。しかし二つが限界に近づくにつれ、この増加はすでに天井を迎えています。
Agent Internetという新しい競争領域の登場は、ゲームのルールを書き換えています。1社、あるいは1人の単位で数百〜数千のエージェントをデプロイでき、さらに1つのエージェントで複数のタスクを同時に走らせることもでき、それらのエージェントは眠る必要がありません。つまり、Agent Internet Infraが担うトラフィックと価値の上限は、現時点ではまだ見積もりにくいのです。
これが意味するのは、この層から新しい巨大企業が一群生まれやすいということでもあります。PCインターネット、モバイルインターネットを振り返ると、ほぼすべてのインフラ層の終着点で独立企業が出てきました。問題が十分に一般的で、需要が十分に強いからです。遅かれ早かれ、誰かがそれをプラットフォームにしてしまいます。Agent Internetも同じで、しかも今回はユーザー規模と呼び出し強度がさらに極端です。多くの基礎課題がまだ白紙で、空いている余地のほうがむしろ多いのです。
このスタート直後の段階で、AgentEarthはすでに、なかなか悪くないポジションを占めています。
一つの面では、判断が比較的早く、しかもかなり断固としていることです。最初から「エージェントはユーザー」という前提でシステムを構築し、エージェントのタスクが高い信頼性と高品質で完了することに注目しています。もう一つの面では、チーム構成が珍しいことです。基盤プロトコル能力は一朝一夕で追いつけない。しかも「何億人規模、膨大なリソースのリアルタイム・マッチング」のような場面で戦ったことがある人も、確かに多くはありません。この種のシステムは、安定性、効率、フォールトトレランスへの要求が非常に極端です。普段は、そうやって鍛えられる機会がそもそも多くありません。エージェントの呼び出し規模が立ち上がると、こうした経験は非常に価値が高くなり、しかも短時間で補うことはできません。
昨日、AgentEarthはちょうど彼らのプロダクトのテスト版をリリースし、少人数でのテストを開始しました。テストリンクは以下です:Agentearth.ai
興味のある読者も、QRコードを読み取ってグループに参加し、体験を共有できます:
大量の情報、精密な解説は新浪財経APP(Sina Finance APP)へ