最近、復丹大学自然言語処理チーム (FudanNLP) は、LLM ベースのエージェントに関するレビュー論文を発表しました。全文は 86 ページで、600 以上の参考文献があります。 AIエージェントの歴史から始まり、LLMベースのエージェントの背景、構成、適用シナリオ、話題のエージェント社会*など、知的エージェントの現状を大規模言語モデルに基づいて包括的に整理。 *。同時に、著者らは、関連分野の将来の開発動向にとって非常に価値のある、エージェントに関連する将来を見据えた未解決の問題についても議論しました。

* 論文リンク:

LLM ベースのエージェントの論文リスト:

**チームメンバーは、各関連論文に「一文要約」も追加します, スター倉庫へようこそ。 **

研究の背景

研究者たちは長い間、人間のレベルと同等、あるいはそれを超える汎用人工知能 (AGI) を追求してきました。 1950 年代にはすでに、アランチューリングは「知性」の概念を人工実体に拡張し、有名なチューリングテストを提案しました。これらの人工知能エンティティは、エージェントと呼ばれることがよくあります。「エージェント」の概念は哲学に由来し、欲望、信念、意図、および行動を起こす能力を持つ存在を指します。人工知能の分野では、この用語に新しい意味が与えられています。自律性、反応性、積極性、社交性の特徴を持つ知的実体です。

**エージェントという用語の中国語訳については統一見解がありません。一部の学者はエージェント、アクター、エージェント、またはインテリジェントエージェントと訳しています。この記事に登場する「エージェント」と「インテリジェントエージェント」は両方ともエージェントを指します。 *

それ以来、エージェントの設計は人工知能コミュニティの焦点になっています。ただし、これまでの研究は主に、象徴的な推論や特定のタスク (チェス、囲碁など) の習得など、エージェントの特定の能力を強化することに焦点を当てていました。これらの研究は、知識記憶、長期計画、効果的な一般化、効率的な対話など、モデルに固有の一般的な機能の開発を無視しながら、アルゴリズムの設計とトレーニング戦略に重点を置いています。 **モデルの固有の機能を強化することが、インテリジェントエージェントのさらなる開発を促進する重要な要素であることがわかりました。 **

大規模言語モデル (LLM) の出現は、インテリジェントエージェントのさらなる開発に希望をもたらします。 NLP から AGI への開発ルートをコーパス、インターネット、知覚、具体化、社会的属性の 5 つのレベルに分けると、現在の大規模言語モデルはインターネット規模のテキスト入出力を備えた第 2 レベルに達しています。これに基づいて、LLM ベースのエージェントに知覚スペースとアクションスペースが与えられると、エージェントは第 3 レベルと第 4 レベルに到達します。さらに、複数のエージェントが対話および協力して、より複雑なタスクを解決したり、現実世界の社会的行動を反映したりすると、第 5 レベルであるエージェント社会に到達する可能性があります。

*著者は、人間も参加できる知的エージェントの調和のとれた社会を構想しています。『原神』のシーランタン祭りのシーンです。 *

エージェントの誕生

大規模なモデルでサポートされるインテリジェントエージェントはどのようなものになるでしょうか?著者らは、ダーウィンの「適者生存」の法則に触発されて、大規模モデルに基づいたインテリジェントエージェントの一般的なフレームワークを提案しました。人が社会で生き延びたいのであれば、環境に適応することを学ばなければなりません。そのため、認知能力を持ち、外界の変化を認識して対応できる必要があります。同様に、知的エージェントのフレームワークも、**制御端末 (Brain)、知覚端末 (Perception)、およびアクション端末 (Action) の 3 つの部分から構成されます。 **

制御端末: 通常は LLM で構成され、インテリジェントエージェントの中核となります。記憶や知識を保存するだけでなく、情報処理や意思決定などの不可欠な機能も担います。インテリジェントエージェントの一般化と移転可能性を反映して、推論と計画のプロセスを提示し、未知のタスクにうまく対処できます。
知覚終了: インテリジェントエージェントの知覚空間を純粋なテキストから拡張して、テキスト、視覚、聴覚などのマルチモーダルなフィールドを含め、エージェントが周囲の環境から情報をより効果的に取得して利用できるようにします。
モバイル端末: 通常のテキスト出力に加えて、エージェントには具現化してツールを使用する機能も与えられるため、環境の変化によりよく適応し、フィードバックを通じて環境と対話し、さらには環境を形作ることができます。環境。

LLM ベースのエージェントの概念フレームワークは、制御端 (Brain)、認識端 (Perception)、および動作端 (Action) の 3 つのコンポーネントで構成されます。

著者らは、例を使用して LLM ベースのエージェントのワークフローを説明します。人間が雨が降るかどうか尋ねると、知覚側 (Perception) がその指示を LLM が理解できる表現に変換します。そして、制御端末（ブレイン）は、現在の天気やインターネット上の天気予報に基づいて推論と行動計画を開始します。最後に、アクションが応答して人間に傘を渡します。

上記のプロセスを繰り返すことにより、インテリジェントエージェントは継続的にフィードバックを取得し、環境と対話することができます。

制御端末: Brain

インテリジェントエージェントの中核コンポーネントとして、著者はその機能を次の 5 つの側面から紹介します。

**自然言語インタラクション: **言語はコミュニケーションの媒体であり、豊富な情報が含まれています。 LLM の強力な自然言語生成および理解機能のおかげで、インテリジェントエージェントは、目標を達成するために、自然言語を通じて複数回にわたり外界と対話できます。具体的には、次の 2 つの側面に分けることができます。

高品質のテキスト生成: 多数の評価実験により、LLM が流暢で多様で斬新で制御可能なテキストを生成できることが示されています。個々の言語のパフォーマンスは低いものの、全体的には優れた多言語スキルが得られます。
含意を理解する: 言語は、直観的に表現された内容に加えて、話者の意図や好みなどの情報も伝えることがあります。これは、エージェントがより効率的に通信し、協力するのに役立つことを意味しており、大規模なモデルはすでにこの点での可能性を示しています。

知識: コーパスの大規模なバッチに基づいてトレーニングされた LLM は、大量の知識を保存する能力を備えています。言語知識に加えて、常識知識と専門スキル知識も LLM ベースのエージェントの重要な要素です。

LLM 自体には依然として知識の期限切れや幻覚などの問題がありますが、既存の研究の中には知識の編集や外部の知識ベースの呼び出しによってこれらの問題をある程度軽減できるものもあります。

メモリ: この記事のフレームワークでは、メモリモジュール (メモリ) にエージェントの過去の観察、思考、およびアクションシーケンスが保存されます。特定の記憶メカニズムを通じて、エージェントは以前の戦略を効果的に反映して適用することができ、過去の経験を利用して不慣れな環境に適応できるようになります。

記憶力を向上させるために一般的に使用される方法は 3 つあります。

バックボーンアーキテクチャの長さ制限を拡張: トランスフォーマーに固有のシーケンスの長さ制限の問題を改善します。
要約: 記憶を要約して、エージェントが記憶から重要な詳細を抽出する能力を強化します。
圧縮: ベクトルまたは適切なデータ構造を使用してメモリを圧縮することで、メモリの検索効率を向上させることができます。

さらに、メモリの取得方法も重要であり、適切なコンテンツを取得することによってのみ、エージェントは最も関連性の高い正確な情報にアクセスできます。

推論と計画: 推論能力 (推論) は、インテリジェントエージェントが意思決定や分析などの複雑なタスクを実行するために重要です。 LLM に特有の、思考連鎖 (CoT) に代表される一連のプロンプト手法です。計画は、大きな課題に直面したときによく使用される戦略です。これは、エージェントが思考を整理し、目標を設定し、それらの目標を達成するための手順を特定するのに役立ちます。特定の実装では、計画には次の 2 つのステップが含まれる場合があります。

計画の策定: エージェントは、複雑なタスクをより管理しやすいサブタスクに分割します。例: 1 回の分解とその後の順番での実行、段階的な計画と実行、マルチパスの計画と最適なパスの選択など。専門知識が必要な一部のシナリオでは、エージェントを特定の分野の Planner モジュールと統合して機能を強化できます。
計画の振り返り: 計画を立てた後、計画を振り返り、その長所と短所を評価できます。この種の反映は一般に 3 つの側面から生じます: 内部フィードバックメカニズムの使用、人間との対話からのフィードバックの取得、環境からのフィードバックの取得。

**移転性と一般化: **世界的な知識を持つ LLM は、インテリジェントなエージェントに強力な移行および一般化機能を提供します。優れたエージェントは静的な知識ベースではなく、動的な学習機能も備えています。

未知のタスクへの一般化: モデルのサイズとトレーニングデータが増加するにつれて、LLM は未知のタスクを解決する驚くべき能力を開発しました。指示によって微調整された大規模モデルはゼロショットテストで良好なパフォーマンスを示し、多くのタスクでエキスパートモデルと同等の結果を達成しました。
コンテキスト内学習: 大規模なモデルは、コンテキスト内の少数の例から類推して学習できるだけでなく、この機能をテキストを超えたマルチモーダルシーンにも拡張することができ、エージェントが状況に適用できる機会を増やすことができます。現実世界には多くの可能性があります。 *継続学習: 継続学習の主な課題は壊滅的な忘却です。つまり、モデルが新しいタスクを学習すると、過去のタスクの知識が簡単に失われます。特殊な領域のインテリジェントエージェントは、一般的な領域の知識を失わないようにする必要があります。

知覚の終わり: 知覚

人間は世界をマルチモーダルな方法で認識するため、研究者は LLM ベースのエージェントに対して同じ期待を抱いています。マルチモーダルな認識により、エージェントの作業環境に対する理解を深め、その汎用性を大幅に向上させることができます。

テキスト入力: LLM の最も基本的な機能なので、ここでは詳しく説明しません。

**視覚入力:**LLM 自体には視覚認識機能がなく、個別のテキストコンテンツのみを理解できます。また、視覚入力には通常、オブジェクトのプロパティ、空間関係、シーンのレイアウトなど、世界に関する多くの情報が含まれています。一般的な方法は次のとおりです。

視覚入力を対応するテキスト記述に変換 (画像キャプション): LLM が直接理解でき、解釈可能性が高くなります。
視覚情報のエンコードと表現: 知覚モジュールは、視覚基本モデル + LLM のパラダイムで構成されており、モデルは、エンドツーエンドの方法でトレーニングできる位置合わせ操作を通じてさまざまなモダリティの内容を理解できます。

聴覚入力: 聴覚も人間の知覚の重要な部分です。 LLM は優れたツール呼び出し機能を備えているため、エージェントが LLM を制御ハブとして使用し、既存のツールセットまたはエキスパートモデルをカスケード方式で呼び出して音声情報を認識できるというのが直感的なアイデアです。さらに、オーディオはスペクトログラムを通じて視覚的に表現することもできます。スペクトログラムは 2D 情報を表示するための平面画像として使用できるため、一部の視覚処理手法を音声フィールドに応用できます。

その他の入力: 現実世界には、テキスト、視覚、聴覚だけではない情報がたくさんあります。著者らは、将来、インテリジェントエージェントが触覚、嗅覚、その他の器官などのより豊富な認識モジュールを備え、対象物のより豊かな属性を取得できるようになることを期待している。同時に、エージェントは周囲環境の温度、湿度、明るさを明確に感じ、より環境に配慮した行動をとることができます。

さらに、ライダー、GPS、慣性測定ユニットなどの成熟した認識モジュールを使用して、エージェントをより広範な環境全体の認識に導入することもできます。

モバイル端末: アクション

脳が分析と決定を行った後、エージェントは環境に適応または変更するためのアクションも実行する必要があります。

テキスト出力: LLM の最も基本的な機能なので、ここでは詳しく説明しません。

**ツールの使用法:**LLM は優れた知識と専門的能力を備えていますが、特定の問題に直面すると、堅牢性の問題や幻覚などの一連の課題が発生する可能性があります。同時に、ツールはユーザーの能力の拡張として、専門性、事実性、解釈可能性などの側面で支援を提供できます。たとえば、計算機を使用して数学の問題を解決したり、検索エンジンを使用してリアルタイムの情報を検索したりできます。

さらに、ツールはインテリジェントエージェントの行動範囲を拡張することもできます。たとえば、音声生成や画像生成などのエキスパートモデルを呼び出すことで、マルチモーダルアクションを取得できます。したがって、エージェントをどのようにして優れたツールユーザーに成長させるか、つまりツールの効果的な使い方を学ぶことが非常に重要であり、将来性のある方向性となります。

現在、ツール学習の主な方法としては、デモンストレーションから学習する方法とフィードバックから学習する方法があります。さらに、メタ学習、コース学習などを使用して、さまざまなツールを使用する際の一般化機能をエージェントに提供することもできます。さらに一歩進んで、インテリジェントエージェントはツールを「自給自足」で作成する方法をさらに学習し、それによって自律性と独立性を高めることができます。

**具体化されたアクション: **具体化とは、環境との対話中にエージェントが環境を理解し、変換し、自身の状態を更新する能力を指します。身体化されたアクションは、仮想知能と物理的現実の間の架け橋と見なされます。

強化学習に基づく従来のエージェントにはサンプル効率、一般化、複雑な問題の推論に限界がありましたが、LLM ベースのエージェントは大規模モデルの豊富な固有の知識を導入し、身体化されたエージェントが人間と同様に物理環境を積極的に認識し、影響を与えることができます。タスクにおけるエージェントの自律性の程度、またはアクションの複雑さに応じて、次のアトミックアクションが存在する可能性があります。

観察は、知的エージェントが環境内で自分自身の位置を特定し、物体や項目を認識し、その他の環境情報を取得するのに役立ちます。
操作とは、掴む、押すなどの特定の操作を完了することです。
ナビゲーションでは、インテリジェントエージェントがタスクの目標に従って位置を変更し、環境情報に従ってステータスを更新する必要があります。

これらのアトミックアクションを組み合わせることで、エージェントはより複雑なタスクを完了できます。たとえば、「キッチンにあるスイカはボウルより大きいですか?」などの QA タスクを具体化します。この問題を解決するには、エージェントはキッチンに移動し、両方のサイズを観察した後、答えを導き出す必要があります。

物理世界のハードウェアのコストが高いことと、具現化されたデータセットの不足によって制限されているため、具現化されたアクションに関する現在の研究は依然として主にゲームプラットフォーム「Minecraft」などの仮想サンドボックス環境に焦点を当てています。したがって、著者らは、より現実に近いタスクパラダイムと評価基準を期待している一方で、関連するデータセットの効率的な構築についてさらなる探求も必要としています。

実際のエージェント: 多様なアプリケーションシナリオ

現在、LLM ベースのエージェントは、印象的な多様性と強力なパフォーマンスを実証しています。 AutoGPT、MetaGPT、CAMEL、GPT Engineer などのおなじみのアプリケーション例が、前例のないスピードでブームになっています。

特定のアプリケーションを紹介する前に、著者は Agent in Practice の設計原則について説明します。

ユーザーが日常業務や反復労働から解放され、人間の仕事のプレッシャーを軽減し、タスク解決の効率を向上させるのに役立ちます。
ユーザーは明示的な低レベルの指示を発行する必要がなくなり、完全に独立して問題を分析、計画、解決できます。
ユーザーの手を解放した後は、脳を解放してください。最先端の科学分野でその可能性を最大限に発揮し、革新的で探求的な研究を完了してください。

これに基づいて、エージェントのアプリケーションには 3 つのパラダイムがあります。

*LLM ベースのエージェントの 3 つのアプリケーションパラダイム: シングルエージェント、マルチエージェント、人間とコンピューターの対話。 *

単一エージェントのシナリオ

人間の自然言語コマンドを受け入れ、日常業務を実行できるインテリジェントエージェントは現在ユーザーに好まれており、実用的価値が高くなります。著者らはまず、その多様なアプリケーションシナリオと、単一のインテリジェントエージェントのアプリケーションシナリオにおける対応する機能について詳しく説明しました。

この記事では、単一のインテリジェントエージェントのアプリケーションを次の 3 つのレベルに分けます。

*単一エージェントアプリケーションシナリオの 3 つのレベル: タスク指向、イノベーション指向、ライフサイクル指向。 *

タスク指向の展開では、エージェントは人間のユーザーが基本的な日常タスクを処理するのを支援します。基本的なコマンドの理解、タスクの分解、環境と対話する能力が必要です。具体的には、既存のタスクタイプに応じて、エージェントの実際のアプリケーションをシミュレートされたネットワーク環境とシミュレートされた生活シナリオに分けることができます。
イノベーション指向の展開では、エージェントは最先端の科学分野における独立した調査の可能性を実証できます。固有の複雑さと専門分野からのトレーニングデータの欠如がインテリジェントエージェントの構築を妨げていますが、化学、材料、コンピューターなどの分野ではすでに多くの研究が進歩しています。
ライフサイクル指向の展開では、エージェントはオープンワールドで継続的に探索、学習、新しいスキルを使用し、長期間生存することができます。このセクションでは、著者はゲーム「Minecraft」を例として取り上げます。ゲーム内のサバイバルチャレンジは現実世界の縮図と見なすことができるため、多くの研究者がエージェントの包括的な機能を開発およびテストするための独自のプラットフォームとしてゲームを使用してきました。

マルチエージェントのシナリオ

マービン・ミンスキーは 1986 年にすでに将来を見据えた予測を行っていました。『The Society of Mind』の中で、彼は知性の新しい理論を提案し、知性は多くのより小さな機能固有のエージェントの相互作用から生じると主張した。たとえば、一部のエージェントはパターンの識別を担当する一方、他のエージェントは意思決定や解決策の生成を担当する場合があります。

このアイデアは、分散型人工知能の台頭によって具体的に実装されました。マルチエージェントシステム (マルチエージェント) は、主な研究課題の 1 つとして、エージェントが問題を解決するためにどのように効果的に調整および協力できるかに主に焦点を当てています。この記事の著者は、複数のエージェント間の対話を次の 2 つの形式に分類します。

*マルチエージェントアプリケーションシナリオにおけるインタラクションには 2 つの形式があります: 協力的インタラクションと対立的インタラクション。 *

協力的なインタラクション: 実際のアプリケーションで最も広く導入されているタイプとして、協力的なエージェントシステムはタスクの効率を効果的に向上させ、共同で意思決定を向上させることができます。具体的には、さまざまな協力形態に応じて、著者は協力的相互作用を無秩序な協力と秩序ある協力に細分化します。

すべてのエージェントが自由に自分の意見や意見を表明し、非連続的な方法で協力することを無秩序な協力と呼びます。
すべてのエージェントが流れ作業の形で 1 つずつ意見を表明するなど、一定のルールに従っている場合、協力プロセス全体が秩序立っており、これを秩序ある協力と呼びます。

敵対的な対話: インテリジェントエージェントは報復的な方法で対話します。競争、交渉、議論を通じて、エージェントは当初の誤った可能性のある信念を放棄し、自らの行動や推論プロセスについて有意義な反省を行い、最終的にはシステム全体の応答品質の向上につながります。

人間とコンピューターの対話シナリオ

ヒューマンエージェントインタラクションは、その名前が示すように、人間と協力してタスクを完了するインテリジェントエージェントです。エージェントの動的な学習能力はコミュニケーションによってサポートされる必要がある一方で、現在のエージェントシステムは解釈性がまだ不十分であり、安全性や合法性などに問題がある可能性があるため、人間の関与が必要です。そして監督。

論文の中で、著者らはヒューマンとエージェントのインタラクションを次の 2 つのモードに分けています。

*人間とコンピューターの対話シナリオにおける 2 つのモード: 講師と講師モードと対等パートナーシップモード。 *

インストラクター/ユーターモード: 人間がインストラクターとして機能し、指示とフィードバックを与えます。エージェントは実行者として機能し、指示に従って徐々に調整および最適化します。このモデルは、教育、医療、ビジネスなどの分野で広く使用されています。
対等パートナーシップモード: 一部の研究では、エージェントが人間とのコミュニケーションにおいて共感を示したり、対等にタスクの実行に参加したりできることが観察されています。知能エージェントは日常生活への応用の可能性を示しており、将来的には人間社会に組み込まれることが期待されています。

エージェント社会: 人格から社会性へ

研究者たちは長い間、「インタラクティブな人工社会」の構築を夢見てきましたが、サンドボックスゲーム「ザ・シムズ」から「メタバース」に至るまで、人々の疑似社会の定義は、「環境 + 社会の中で生き、交流する個人」と要約できます。環境も

この記事の中で、著者は図を使用してエージェント社会の概念的枠組みを説明しています。

*エージェント社会の概念的な枠組み。エージェントと環境という 2 つの主要な部分に分かれています。 *

このフレームワークでは次のことがわかります。

左側セクション: 個人レベルでは、エージェントは計画、推論、考察などの内面化されたさまざまな行動を示します。さらに、エージェントは、認知、感情、性格の側面にわたる本質的な性格特性を示します。
中段: 単一のエージェントは、他の個々のエージェントとグループを形成して、協力などのグループ行動を共同で示すことができます。
右側: 環境は、仮想サンドボックス環境または現実の物理世界の形式をとることができます。環境の要素には、人間と利用可能なさまざまなリソースが含まれます。単一のエージェントの場合、他のエージェントも環境の一部となります。
全体的なインタラクション: エージェントは、外部環境を感知してアクションを実行することで、インタラクションプロセス全体に積極的に参加します。

エージェントの社会的行動と性格

この記事では、社会におけるエージェントのパフォーマンスを、外部の行動と内部の性格の観点から検証しています。

社会的行動: 社会的な観点から見ると、行動は個人と集団の 2 つのレベルに分類できます。

※個人の行動がエージェント自体の運用・開発の基礎となります。これには、知覚によって表される入力、アクションによって表される出力、およびエージェント自身の内面化された行動が含まれます。

群集行動とは、2 人以上のエージェントが自発的に対話するときに発生する行動を指します。これには、協力に代表されるポジティブな行動、対立に代表されるネガティブな行動、そして群れに従う、監視するなどの中立的な行動が含まれます。

性格: 認知、感情、性格を含みます。人間が社会化のプロセスを通じて徐々に独自の特性を発達させるのと同じように、エージェントも、グループや環境との相互作用を通じて徐々に人格を形成する、いわゆる「人間のような知性」を示します。

認知能力: エージェントが知識を獲得し、理解するプロセスをカバーします研究によると、LLM ベースのエージェントは、いくつかの側面で人間と同様の熟慮と知性を示すことができます。
心の知能指数: 喜び、怒り、悲しみ、喜びなどの主観的な感情や感情状態、また同情や共感を示す能力に関係します。
キャラクター (キャラクター描写): LLM の性格特性を理解および分析するために、研究者はビッグ 5 性格テストや MBTI テストなどの成熟した評価方法を使用して、性格の多様性と複雑さを調査してきました。

社会的運営環境のシミュレーション

エージェント社会は、独立した個人だけで構成されるのではなく、彼らが相互作用する環境も含みます。環境は、エージェントがどのように認識、行動、対話するかに影響を与えます。同様に、エージェントも自らの行動と決定を通じて環境の状態を変化させます。個々のエージェントの場合、環境には他の自律エージェント、人間、および利用可能なリソースが含まれます。

ここで、著者は 3 種類の環境を調査します。

テキストベースの環境: LLM は入出力形式として主に言語に依存しているため、テキストベースの環境はエージェントにとって最も自然なオペレーティングプラットフォームです。社会現象と相互作用は言葉を通じて説明され、テキスト環境は意味論的知識と背景知識を提供します。エージェントはそのようなテキストの世界に存在し、テキストのリソースに依存して認識し、推論し、行動します。

仮想サンドボックス環境: コンピュータ分野では、サンドボックスとは制御され隔離された環境を指し、ソフトウェアのテストやウイルス分析によく使用されます。エージェントソサエティの仮想サンドボックス環境は、社会的インタラクションと行動シミュレーションをシミュレートするためのプラットフォームとして機能し、その主な機能は次のとおりです。

視覚化: シンプルな 2D グラフィカルインターフェイスや複雑な 3D モデリングを使用して世界を表示し、シミュレートされた社会のあらゆる側面を直感的な方法で描写できます。
スケーラビリティ: さまざまなシナリオ (Web、ゲームなど) を構築して展開してさまざまな実験を行うことができ、エージェントが探索できる広いスペースを提供します。

現実の物理環境: 物理環境は、エージェントが観察および行動する実際の物体および空間からなる具体的な環境です。この環境では、豊富な感覚入力 (視覚、聴覚、空間) が導入されます。仮想環境とは異なり、物理空間ではエージェントの動作に対してより多くの要求が課されます。つまり、エージェントは物理環境に適応でき、実行可能なモーションコントロールを生成する必要があります。

著者は物理環境の複雑さを説明する例を挙げています: 工場内でロボットアームを操作するインテリジェントエージェントを想像してください。ロボットアームを操作するときは、異なる材質の物体の損傷を避けるために力を正確に制御する必要があります。エージェントは物理的なワークスペースにいる必要があります。障害物を回避し、ロボットアームの移動軌道を最適化するために、中央を移動して移動経路を時間内に調整します。

これらの要件により、物理環境におけるエージェントの複雑さと課題が増大します。

シミュレーション、開始!

この記事の中で著者らは、模擬社会はオープンで、永続的で、状況に応じて組織化されている必要があると考えています。開放性はエージェントがシミュレーションされた社会に自律的に出入りすることを可能にします;永続性は社会が時間の経過とともに発展する一貫した軌道を持つことを意味します;文脈性は特定の環境における主体の存在と動作を強調します;組織化はシミュレーション社会が物理的な世界を持つことを保証します-ルールや制限など。

模擬社会の重要性については、スタンフォード大学のジェネレーティブエージェントタウンが誰にとっても鮮やかな例を提供しています - エージェント社会は、グループインテリジェンスの能力を探求するために使用できます。たとえば、エージェントが共同でバレンタインデーパーティーを企画したり、また、それを使用したりすることもできます。ソーシャルネットワークを模擬してコミュニケーション現象を観察するなど、社会科学研究を加速します。さらに、倫理的な意思決定シナリオをシミュレーションすることでエージェントの背後にある価値観を探ったり、政策が社会に与える影響をシミュレーションすることで意思決定を支援したりする研究も行われています。

さらに著者は、これらのシミュレーションには、有害な社会現象、固定観念と偏見、プライバシーとセキュリティの問題、過度の依存と中毒などを含むがこれらに限定されない特定のリスクも伴う可能性があると指摘しました。

将来を見据えた未解決の質問

この論文の最後では、著者はいくつかの将来を見据えた未解決の疑問についても議論し、読者に次のことについて考えるためのインスピレーションを提供します。

**インテリジェントエージェントと大規模言語モデルの研究はどのようにして相互に促進し、共に発展できるのでしょうか? **大規模モデルは、言語理解、意思決定、汎化能力において大きな可能性を示しており、エージェント構築プロセスにおいて重要な役割を果たしていますが、エージェントの進歩により、大規模モデルに対する要求も高まっています。

**LLM ベースのエージェントはどのような課題や懸念をもたらすでしょうか? ** インテリジェントエージェントを本当に実用化できるかどうかには、現実世界への危害を避けるための厳格なセキュリティ評価が必要です。著者は、違法虐待、失業のリスク、人間の幸福への影響など、さらに多くの潜在的な脅威を要約しています。

**スケールアップはどのような機会と課題をもたらすのでしょうか? **シミュレーション社会では、個人の数を増やすことでシミュレーションの信頼性と信頼性を大幅に向上させることができます。ただし、エージェントの数が増加するにつれて、通信およびメッセージ配布の問題は非常に複雑になり、情報の歪曲、誤解、または幻覚によってシミュレーションシステム全体の効率が大幅に低下します。

**インターネット上では、LLM ベースのエージェントが AGI への適切なパスであるかどうかについて議論があります。 **一部の研究者は、GPT-4 に代表される大規模モデルは十分なコーパスでトレーニングされており、これに基づいて構築されたエージェントは AGI への扉を開く鍵となる可能性があると考えています。しかし、他の研究者は、自己回帰言語モデリングは反応するだけなので、本当の知能は示さないと考えています。 World Model などのより完全なモデリング手法は、AGI につながる可能性があります。

**群知能の進化。群知能は、多くの人々の意見を収集し、それらを意思決定に変換するプロセスです。 **しかし、エージェントの数を増やすだけで真の「知性」は生み出されるのでしょうか？さらに、知的エージェントの社会が「集団思考」や個人の認知バイアスを克服できるようにするために、個々のエージェントをどのように調整すればよいでしょうか?

**サービスとしてのエージェント (AaaS)。 **LLM ベースのエージェントは大規模モデル自体よりも複雑であり、中小企業や個人がローカルに構築するのはより困難であるため、クラウドベンダーは、サービスの形でインテリジェントエージェント、つまりエージェントの実装を検討できます。サービスとして。他のクラウドサービスと同様、AaaS には、ユーザーに高い柔軟性とオンデマンドのセルフサービスを提供する可能性があります。

免責事項：このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

0/400

コメントなし

Fudan NLP チームは、AI エージェントの現状と将来の概要を 1 つの記事で提供する、80 ページにわたる大規模モデル エージェントの概要を発表しました。

研究の背景

エージェントの誕生

実際のエージェント: 多様なアプリケーション シナリオ

エージェント社会: 人格から社会性へ

**シミュレーション、開始! **

将来を見据えた未解決の質問

Fudan NLP チームは、AI エージェントの現状と将来の概要を 1 つの記事で提供する、80 ページにわたる大規模モデルエージェントの概要を発表しました。

実際のエージェント: 多様なアプリケーションシナリオ

シミュレーション、開始!