対話アマゾンウェブサービスMai-Lan:S3の次の戦場、エージェント時代のデータ消費の狂乱にどう対応するか

robot
概要作成中

null

年初、OpenClawが中国市場で爆発的に成功し、すべての人にAgentの巨大な潜力を示した。しかし、それに伴い、すべてのクラウドベンダーが答えなければならない課題が浮上した:Agentがサイバーロブスターのように狂ったように繁殖し、高頻度でデータを呼び出し始めたとき、AIクラウドインフラ層、特にデータ層は準備ができているのか?

例えば、企業のデータチームがAgentを本番環境に展開する際、しばしばデータ層でボトルネックに直面する。ベクトルデータベース、リレーショナルデータベース、グラフデータベース、湖倉庫など異なるプラットフォーム上のAgentを構築するには、コンテキスト情報の時効性を保つためにデータパイプラインを同期させる必要がある。しかし、実際の本番環境では、これらのコンテキスト情報は徐々に陳腐化していく。

この問題の緊急性は、Agentと人間エンジニアのデータ消費パターンの根本的な違いに由来する。

「Agentは非常に活発かつ攻撃的な方法でデータを消費しており、その呼び出し頻度は驚くべきものだ。」

アマゾンウェブサービスの副社長Mai-Lan Tomsen Bukovecは、筆者との最近の交流で、Agentは「並列選択」の作業モードを通じて動作していると指摘した。つまり、一度に一つのクエリではなく、数十、百を超える並列クエリを同時に実行し、比較して最適な経路を見つける。これにより、Agentは人間よりもはるかに攻撃的なデータ消費者となり、呼び出し頻度は数桁高まり、データスループットは指数関数的に増加する。

Mai-Lanはさらに、「現在、顧客はAgent基盤インフラの構築を非常に望んでおり、コストやコストパフォーマンスはもはや二の次ではなく、決定的な要素となっている。今後半年から一年の間に、Agentの爆発的普及に伴い、基盤となるデータサービスの選択が非常に重要になるだろう」と述べた。

現在、OpenClawの熱狂は収束しつつあり、クラウドベンダーの底層のストレージ・計算能力に対する圧力テストの警告が残されている。Mai-Lanは、アマゾンウェブサービスはこの分野で天然の優位性を持つと考えている。Amazon S3(Amazon Simple Storage Service)の規模、Amazon RedshiftとAmazon Athenaの高並列下でのコスト効率は、超大規模・超高頻度のAgentデータインタラクションに最適化されている。

Amazon S3の20周年を迎えるにあたり、AI時代の顧客のデータ処理ニーズに応えるため、Amazon S3は最近、S3 Table(表形式)、S3 Files(ファイル)、S3 Vector(ベクトル)の三大革新を実現した。

例えば、S3 TableはApache Icebergのネイティブサポートを提供している。Mai-Lanは、Agentはデータ処理時にSQLを通じてIcebergフォーマットのデータと直接やり取りする傾向があると指摘した。これは、Agentが大規模モデル上に構築されており、その訓練過程でSQL構文やIcebergデータフォーマットに対する成熟した処理能力を獲得しているためだ。すべてのテーブルデータをIcebergフォーマットでS3に格納することで、Agentは複雑なアクセスAPIを学習せずとも効率的にデータを処理できる。現在、AgentとS3およびIcebergの間には高い親和性が見られる。

Iceberg機能がS3に導入されると、新たなイノベーションの波が生まれた。PostgresやOracleなどのデータソースは直接Icebergに書き込み、Agentシステムはこれらのテーブルと直接やり取りできるようになった。さらに、S3 Vectorsの登場により、多くのAIアプリケーションはベクトルを共有記憶の媒体として採用し、AIインタラクションに「状態」を注入している。

Mai-Lanはまた、ベクトルがS3のネイティブデータ型として導入されたことを指摘した。ベクトルの用途は主に二つの次元に集中している。一つは、S3に格納されたデータのコンテキスト情報を構築するためのベクトルの利用、もう一つは、共有記憶としてのベクトルの利用だ。S3 Vectorsのリリース後五ヶ月以内に、市場の反応は予想通りだった。多くの顧客がこの機能を利用し、埋め込みモデルを用いてベクトルを生成し、データのコンテキストを豊かにしている。S3 Vectorsは、Agentシステムの記憶空間の利用率を爆発的に高めている。

注目すべきは、S3 Filesが数週間前にリリースされ、AgentがPOSIX標準(ファイルシステム方式)を通じてS3内のデータを処理できるようになったことだ。Agentシステムでは、大規模モデルは「ファイル」という形態に高度に関心を持ち、Pythonライブラリやシェルスクリプトなどは、モデル訓練時に馴染みのある内容であり、自然にファイルをデータインターフェースとして採用している。

このため、S3 Filesの設計思想は、S3バケット上にEFSファイルシステムをマウントすることにある。これにより、ユーザーはPOSIX標準に基づき、S3データをファイルシステム上で扱える。小さなファイルはEFSのキャッシュを利用して高速アクセスし、大きなファイルは直接S3からストリーミングできる。これにより、Agentは馴染みのあるファイルシステム言語でS3データとネイティブにやり取りでき、共有ファイルシステムをS3の「共有記憶空間」として扱える。

大規模モデルの記憶能力の進展を考えると、この進歩は非常に重要だ。現在のAI体験は、より深い対話コンテキストや個別化されたインタラクションを段階的に導入している——Agent間、エージェントと人間間、またはAgentとデータ間においても、モデルのパフォーマンスは継続的に進化している。ファイルシステムという自然なインターフェースのさらなる拡張により、Agentシステムの記憶能力はより深いレベルで向上することが期待される。

筆者は、2006年に画像などの半構造化データを中心に始まり、その後分析型データへと移行し、最初のデータウェアハウスからデータレイクの台頭へと進化してきた歴史を振り返ると、アマゾンウェブサービスは現在、AIワークロードを支える重要な基盤としてAmazon S3を推進している。Mai-Lanは、Amazon S3の設計の核心は、経済的に主流のデータタイプの成長を促進し続けることにあり、データの可用性、耐久性、レジリエンスを常に守ることだと述べている。これこそが、顧客が20年にわたりS3にデータビジネスを委ね続けてきた理由であり、今後の20年を支える可能性も秘めている。

(本文著者 | 杨丽、編集 | 杨林)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン