出典: ハート・オブ・ザ・マシン
最近、復丹大学自然言語処理チーム (FudanNLP) は、LLM ベースのエージェントに関するレビュー論文を発表しました。全文は 86 ページで、600 以上の参考文献があります。 AIエージェントの歴史から始まり、LLMベースのエージェントの背景、構成、適用シナリオ、話題のエージェント社会*など、知的エージェントの現状を大規模言語モデルに基づいて包括的に整理。 *。同時に、著者らは、関連分野の将来の開発動向にとって非常に価値のある、エージェントに関連する将来を見据えた未解決の問題についても議論しました。
* 論文リンク:
**チームメンバーは、各関連論文に「一文要約」も追加します, スター倉庫へようこそ。 **
研究者たちは長い間、人間のレベルと同等、あるいはそれを超える汎用人工知能 (AGI) を追求してきました。 1950 年代にはすでに、アラン チューリングは「知性」の概念を人工実体に拡張し、有名なチューリング テストを提案しました。これらの人工知能エンティティは、エージェントと呼ばれることがよくあります。 「エージェント」の概念は哲学に由来し、欲望、信念、意図、および行動を起こす能力を持つ存在を指します。人工知能の分野では、この用語に新しい意味が与えられています。自律性、反応性、積極性、社交性の特徴を持つ知的実体です。
**エージェントという用語の中国語訳については統一見解がありません。一部の学者はエージェント、アクター、エージェント、またはインテリジェント エージェントと訳しています。この記事に登場する「エージェント」と「インテリジェント エージェント」は両方ともエージェントを指します。 *
それ以来、エージェントの設計は人工知能コミュニティの焦点になっています。ただし、これまでの研究は主に、象徴的な推論や特定のタスク (チェス、囲碁など) の習得など、エージェントの特定の能力を強化することに焦点を当てていました。これらの研究は、知識記憶、長期計画、効果的な一般化、効率的な対話など、モデルに固有の一般的な機能の開発を無視しながら、アルゴリズムの設計とトレーニング戦略に重点を置いています。 **モデルの固有の機能を強化することが、インテリジェント エージェントのさらなる開発を促進する重要な要素であることがわかりました。 **
大規模言語モデル (LLM) の出現は、インテリジェント エージェントのさらなる開発に希望をもたらします。 NLP から AGI への開発ルートをコーパス、インターネット、知覚、具体化、社会的属性の 5 つのレベルに分けると、現在の大規模言語モデルはインターネット規模のテキスト入出力を備えた第 2 レベルに達しています。これに基づいて、LLM ベースのエージェントに知覚スペースとアクション スペースが与えられると、エージェントは第 3 レベルと第 4 レベルに到達します。さらに、複数のエージェントが対話および協力して、より複雑なタスクを解決したり、現実世界の社会的行動を反映したりすると、第 5 レベルであるエージェント社会に到達する可能性があります。
*著者は、人間も参加できる知的エージェントの調和のとれた社会を構想しています。 『原神』のシーランタン祭りのシーンです。 *
大規模なモデルでサポートされるインテリジェント エージェントはどのようなものになるでしょうか?著者らは、ダーウィンの「適者生存」の法則に触発されて、大規模モデルに基づいたインテリジェント エージェントの一般的なフレームワークを提案しました。人が社会で生き延びたいのであれば、環境に適応することを学ばなければなりません。そのため、認知能力を持ち、外界の変化を認識して対応できる必要があります。同様に、知的エージェントのフレームワークも、**制御端末 (Brain)、知覚端末 (Perception)、およびアクション端末 (Action) の 3 つの部分から構成されます。 **
LLM ベースのエージェントの概念フレームワークは、制御端 (Brain)、認識端 (Perception)、および動作端 (Action) の 3 つのコンポーネントで構成されます。
著者らは、例を使用して LLM ベースのエージェントのワークフローを説明します。人間が雨が降るかどうか尋ねると、知覚側 (Perception) がその指示を LLM が理解できる表現に変換します。そして、制御端末(ブレイン)は、現在の天気やインターネット上の天気予報に基づいて推論と行動計画を開始します。最後に、アクションが応答して人間に傘を渡します。
上記のプロセスを繰り返すことにより、インテリジェント エージェントは継続的にフィードバックを取得し、環境と対話することができます。
制御端末: Brain
インテリジェント エージェントの中核コンポーネントとして、著者はその機能を次の 5 つの側面から紹介します。
**自然言語インタラクション: **言語はコミュニケーションの媒体であり、豊富な情報が含まれています。 LLM の強力な自然言語生成および理解機能のおかげで、インテリジェント エージェントは、目標を達成するために、自然言語を通じて複数回にわたり外界と対話できます。具体的には、次の 2 つの側面に分けることができます。
知識: コーパスの大規模なバッチに基づいてトレーニングされた LLM は、大量の知識を保存する能力を備えています。言語知識に加えて、常識知識と専門スキル知識も LLM ベースのエージェントの重要な要素です。
LLM 自体には依然として知識の期限切れや幻覚などの問題がありますが、既存の研究の中には知識の編集や外部の知識ベースの呼び出しによってこれらの問題をある程度軽減できるものもあります。
メモリ: この記事のフレームワークでは、メモリ モジュール (メモリ) にエージェントの過去の観察、思考、およびアクション シーケンスが保存されます。特定の記憶メカニズムを通じて、エージェントは以前の戦略を効果的に反映して適用することができ、過去の経験を利用して不慣れな環境に適応できるようになります。
記憶力を向上させるために一般的に使用される方法は 3 つあります。
さらに、メモリの取得方法も重要であり、適切なコンテンツを取得することによってのみ、エージェントは最も関連性の高い正確な情報にアクセスできます。
推論と計画: 推論能力 (推論) は、インテリジェント エージェントが意思決定や分析などの複雑なタスクを実行するために重要です。 LLM に特有の、思考連鎖 (CoT) に代表される一連のプロンプト手法です。計画は、大きな課題に直面したときによく使用される戦略です。これは、エージェントが思考を整理し、目標を設定し、それらの目標を達成するための手順を特定するのに役立ちます。特定の実装では、計画には次の 2 つのステップが含まれる場合があります。
**移転性と一般化: **世界的な知識を持つ LLM は、インテリジェントなエージェントに強力な移行および一般化機能を提供します。優れたエージェントは静的な知識ベースではなく、動的な学習機能も備えています。
知覚の終わり: 知覚
人間は世界をマルチモーダルな方法で認識するため、研究者は LLM ベースのエージェントに対して同じ期待を抱いています。マルチモーダルな認識により、エージェントの作業環境に対する理解を深め、その汎用性を大幅に向上させることができます。
テキスト入力: LLM の最も基本的な機能なので、ここでは詳しく説明しません。
**視覚入力:**LLM 自体には視覚認識機能がなく、個別のテキスト コンテンツのみを理解できます。また、視覚入力には通常、オブジェクトのプロパティ、空間関係、シーンのレイアウトなど、世界に関する多くの情報が含まれています。一般的な方法は次のとおりです。
聴覚入力: 聴覚も人間の知覚の重要な部分です。 LLM は優れたツール呼び出し機能を備えているため、エージェントが LLM を制御ハブとして使用し、既存のツール セットまたはエキスパート モデルをカスケード方式で呼び出して音声情報を認識できるというのが直感的なアイデアです。さらに、オーディオはスペクトログラムを通じて視覚的に表現することもできます。スペクトログラムは 2D 情報を表示するための平面画像として使用できるため、一部の視覚処理手法を音声フィールドに応用できます。
その他の入力: 現実世界には、テキスト、視覚、聴覚だけではない情報がたくさんあります。著者らは、将来、インテリジェントエージェントが触覚、嗅覚、その他の器官などのより豊富な認識モジュールを備え、対象物のより豊かな属性を取得できるようになることを期待している。同時に、エージェントは周囲環境の温度、湿度、明るさを明確に感じ、より環境に配慮した行動をとることができます。
さらに、ライダー、GPS、慣性測定ユニットなどの成熟した認識モジュールを使用して、エージェントをより広範な環境全体の認識に導入することもできます。
モバイル端末: アクション
脳が分析と決定を行った後、エージェントは環境に適応または変更するためのアクションも実行する必要があります。
テキスト出力: LLM の最も基本的な機能なので、ここでは詳しく説明しません。
**ツールの使用法:**LLM は優れた知識と専門的能力を備えていますが、特定の問題に直面すると、堅牢性の問題や幻覚などの一連の課題が発生する可能性があります。同時に、ツールはユーザーの能力の拡張として、専門性、事実性、解釈可能性などの側面で支援を提供できます。たとえば、計算機を使用して数学の問題を解決したり、検索エンジンを使用してリアルタイムの情報を検索したりできます。
さらに、ツールはインテリジェント エージェントの行動範囲を拡張することもできます。たとえば、音声生成や画像生成などのエキスパート モデルを呼び出すことで、マルチモーダル アクションを取得できます。したがって、エージェントをどのようにして優れたツールユーザーに成長させるか、つまりツールの効果的な使い方を学ぶことが非常に重要であり、将来性のある方向性となります。
現在、ツール学習の主な方法としては、デモンストレーションから学習する方法とフィードバックから学習する方法があります。さらに、メタ学習、コース学習などを使用して、さまざまなツールを使用する際の一般化機能をエージェントに提供することもできます。さらに一歩進んで、インテリジェント エージェントはツールを「自給自足」で作成する方法をさらに学習し、それによって自律性と独立性を高めることができます。
**具体化されたアクション: **具体化とは、環境との対話中にエージェントが環境を理解し、変換し、自身の状態を更新する能力を指します。身体化されたアクションは、仮想知能と物理的現実の間の架け橋と見なされます。
強化学習に基づく従来のエージェントにはサンプル効率、一般化、複雑な問題の推論に限界がありましたが、LLM ベースのエージェントは大規模モデルの豊富な固有の知識を導入し、身体化されたエージェントが人間と同様に物理環境を積極的に認識し、影響を与えることができます。タスクにおけるエージェントの自律性の程度、またはアクションの複雑さに応じて、次のアトミック アクションが存在する可能性があります。
これらのアトミック アクションを組み合わせることで、エージェントはより複雑なタスクを完了できます。たとえば、「キッチンにあるスイカはボウルより大きいですか?」などの QA タスクを具体化します。この問題を解決するには、エージェントはキッチンに移動し、両方のサイズを観察した後、答えを導き出す必要があります。
物理世界のハードウェアのコストが高いことと、具現化されたデータセットの不足によって制限されているため、具現化されたアクションに関する現在の研究は依然として主にゲームプラットフォーム「Minecraft」などの仮想サンドボックス環境に焦点を当てています。したがって、著者らは、より現実に近いタスクパラダイムと評価基準を期待している一方で、関連するデータセットの効率的な構築についてさらなる探求も必要としています。
現在、LLM ベースのエージェントは、印象的な多様性と強力なパフォーマンスを実証しています。 AutoGPT、MetaGPT、CAMEL、GPT Engineer などのおなじみのアプリケーション例が、前例のないスピードでブームになっています。
特定のアプリケーションを紹介する前に、著者は Agent in Practice の設計原則について説明します。
ユーザーが日常業務や反復労働から解放され、人間の仕事のプレッシャーを軽減し、タスク解決の効率を向上させるのに役立ちます。
ユーザーは明示的な低レベルの指示を発行する必要がなくなり、完全に独立して問題を分析、計画、解決できます。
ユーザーの手を解放した後は、脳を解放してください。最先端の科学分野でその可能性を最大限に発揮し、革新的で探求的な研究を完了してください。
これに基づいて、エージェントのアプリケーションには 3 つのパラダイムがあります。
*LLM ベースのエージェントの 3 つのアプリケーション パラダイム: シングル エージェント、マルチ エージェント、人間とコンピューターの対話。 *
単一エージェントのシナリオ
人間の自然言語コマンドを受け入れ、日常業務を実行できるインテリジェント エージェントは現在ユーザーに好まれており、実用的価値が高くなります。著者らはまず、その多様なアプリケーション シナリオと、単一のインテリジェント エージェントのアプリケーション シナリオにおける対応する機能について詳しく説明しました。
この記事では、単一のインテリジェント エージェントのアプリケーションを次の 3 つのレベルに分けます。
*単一エージェント アプリケーション シナリオの 3 つのレベル: タスク指向、イノベーション指向、ライフサイクル指向。 *
マルチエージェントのシナリオ
マービン・ミンスキーは 1986 年にすでに将来を見据えた予測を行っていました。 『The Society of Mind』の中で、彼は知性の新しい理論を提案し、知性は多くのより小さな機能固有のエージェントの相互作用から生じると主張した。たとえば、一部のエージェントはパターンの識別を担当する一方、他のエージェントは意思決定や解決策の生成を担当する場合があります。
このアイデアは、分散型人工知能の台頭によって具体的に実装されました。マルチエージェント システム (マルチエージェント) は、主な研究課題の 1 つとして、エージェントが問題を解決するためにどのように効果的に調整および協力できるかに主に焦点を当てています。この記事の著者は、複数のエージェント間の対話を次の 2 つの形式に分類します。
*マルチエージェント アプリケーション シナリオにおけるインタラクションには 2 つの形式があります: 協力的インタラクションと対立的インタラクション。 *
協力的なインタラクション: 実際のアプリケーションで最も広く導入されているタイプとして、協力的なエージェント システムはタスクの効率を効果的に向上させ、共同で意思決定を向上させることができます。具体的には、さまざまな協力形態に応じて、著者は協力的相互作用を無秩序な協力と秩序ある協力に細分化します。
敵対的な対話: インテリジェント エージェントは報復的な方法で対話します。競争、交渉、議論を通じて、エージェントは当初の誤った可能性のある信念を放棄し、自らの行動や推論プロセスについて有意義な反省を行い、最終的にはシステム全体の応答品質の向上につながります。
人間とコンピューターの対話シナリオ
ヒューマン エージェント インタラクションは、その名前が示すように、人間と協力してタスクを完了するインテリジェント エージェントです。エージェントの動的な学習能力はコミュニケーションによってサポートされる必要がある一方で、現在のエージェントシステムは解釈性がまだ不十分であり、安全性や合法性などに問題がある可能性があるため、人間の関与が必要です。そして監督。
論文の中で、著者らはヒューマンとエージェントのインタラクションを次の 2 つのモードに分けています。
*人間とコンピューターの対話シナリオにおける 2 つのモード: 講師と講師モードと対等パートナーシップ モード。 *
研究者たちは長い間、「インタラクティブな人工社会」の構築を夢見てきましたが、サンドボックス ゲーム「ザ・シムズ」から「メタバース」に至るまで、人々の疑似社会の定義は、「環境 + 社会の中で生き、交流する個人」と要約できます。環境も
この記事の中で、著者は図を使用してエージェント社会の概念的枠組みを説明しています。
*エージェント社会の概念的な枠組み。エージェントと環境という 2 つの主要な部分に分かれています。 *
このフレームワークでは次のことがわかります。
エージェントの社会的行動と性格
この記事では、社会におけるエージェントのパフォーマンスを、外部の行動と内部の性格の観点から検証しています。
社会的行動: 社会的な観点から見ると、行動は個人と集団の 2 つのレベルに分類できます。
※個人の行動がエージェント自体の運用・開発の基礎となります。これには、知覚によって表される入力、アクションによって表される出力、およびエージェント自身の内面化された行動が含まれます。
性格: 認知、感情、性格を含みます。人間が社会化のプロセスを通じて徐々に独自の特性を発達させるのと同じように、エージェントも、グループや環境との相互作用を通じて徐々に人格を形成する、いわゆる「人間のような知性」を示します。
社会的運営環境のシミュレーション
エージェント社会は、独立した個人だけで構成されるのではなく、彼らが相互作用する環境も含みます。環境は、エージェントがどのように認識、行動、対話するかに影響を与えます。同様に、エージェントも自らの行動と決定を通じて環境の状態を変化させます。個々のエージェントの場合、環境には他の自律エージェント、人間、および利用可能なリソースが含まれます。
ここで、著者は 3 種類の環境を調査します。
テキストベースの環境: LLM は入出力形式として主に言語に依存しているため、テキストベースの環境はエージェントにとって最も自然なオペレーティング プラットフォームです。社会現象と相互作用は言葉を通じて説明され、テキスト環境は意味論的知識と背景知識を提供します。エージェントはそのようなテキストの世界に存在し、テキストのリソースに依存して認識し、推論し、行動します。
仮想サンドボックス環境: コンピュータ分野では、サンドボックスとは制御され隔離された環境を指し、ソフトウェアのテストやウイルス分析によく使用されます。エージェント ソサエティの仮想サンドボックス環境は、社会的インタラクションと行動シミュレーションをシミュレートするためのプラットフォームとして機能し、その主な機能は次のとおりです。
現実の物理環境: 物理環境は、エージェントが観察および行動する実際の物体および空間からなる具体的な環境です。この環境では、豊富な感覚入力 (視覚、聴覚、空間) が導入されます。仮想環境とは異なり、物理空間ではエージェントの動作に対してより多くの要求が課されます。つまり、エージェントは物理環境に適応でき、実行可能なモーション コントロールを生成する必要があります。
著者は物理環境の複雑さを説明する例を挙げています: 工場内でロボット アームを操作するインテリジェント エージェントを想像してください。ロボット アームを操作するときは、異なる材質の物体の損傷を避けるために力を正確に制御する必要があります。エージェントは物理的なワークスペースにいる必要があります。障害物を回避し、ロボット アームの移動軌道を最適化するために、中央を移動して移動経路を時間内に調整します。
これらの要件により、物理環境におけるエージェントの複雑さと課題が増大します。
この記事の中で著者らは、模擬社会はオープンで、永続的で、状況に応じて組織化されている必要があると考えています。開放性はエージェントがシミュレーションされた社会に自律的に出入りすることを可能にします;永続性は社会が時間の経過とともに発展する一貫した軌道を持つことを意味します;文脈性は特定の環境における主体の存在と動作を強調します;組織化はシミュレーション社会が物理的な世界を持つことを保証します-ルールや制限など。
模擬社会の重要性については、スタンフォード大学のジェネレーティブ エージェント タウンが誰にとっても鮮やかな例を提供しています - エージェント 社会は、グループ インテリジェンスの能力を探求するために使用できます。たとえば、エージェントが共同でバレンタインデー パーティーを企画したり、また、それを使用したりすることもできます。ソーシャルネットワークを模擬してコミュニケーション現象を観察するなど、社会科学研究を加速します。さらに、倫理的な意思決定シナリオをシミュレーションすることでエージェントの背後にある価値観を探ったり、政策が社会に与える影響をシミュレーションすることで意思決定を支援したりする研究も行われています。
さらに著者は、これらのシミュレーションには、有害な社会現象、固定観念と偏見、プライバシーとセキュリティの問題、過度の依存と中毒などを含むがこれらに限定されない特定のリスクも伴う可能性があると指摘しました。
この論文の最後では、著者はいくつかの将来を見据えた未解決の疑問についても議論し、読者に次のことについて考えるためのインスピレーションを提供します。
**インテリジェントエージェントと大規模言語モデルの研究はどのようにして相互に促進し、共に発展できるのでしょうか? **大規模モデルは、言語理解、意思決定、汎化能力において大きな可能性を示しており、エージェント構築プロセスにおいて重要な役割を果たしていますが、エージェントの進歩により、大規模モデルに対する要求も高まっています。
**LLM ベースのエージェントはどのような課題や懸念をもたらすでしょうか? ** インテリジェント エージェントを本当に実用化できるかどうかには、現実世界への危害を避けるための厳格なセキュリティ評価が必要です。著者は、違法虐待、失業のリスク、人間の幸福への影響など、さらに多くの潜在的な脅威を要約しています。
**スケールアップはどのような機会と課題をもたらすのでしょうか? **シミュレーション社会では、個人の数を増やすことでシミュレーションの信頼性と信頼性を大幅に向上させることができます。ただし、エージェントの数が増加するにつれて、通信およびメッセージ配布の問題は非常に複雑になり、情報の歪曲、誤解、または幻覚によってシミュレーション システム全体の効率が大幅に低下します。
**インターネット上では、LLM ベースのエージェントが AGI への適切なパスであるかどうかについて議論があります。 **一部の研究者は、GPT-4 に代表される大規模モデルは十分なコーパスでトレーニングされており、これに基づいて構築されたエージェントは AGI への扉を開く鍵となる可能性があると考えています。しかし、他の研究者は、自己回帰言語モデリングは反応するだけなので、本当の知能は示さないと考えています。 World Model などのより完全なモデリング手法は、AGI につながる可能性があります。
**群知能の進化。群知能は、多くの人々の意見を収集し、それらを意思決定に変換するプロセスです。 **しかし、エージェントの数を増やすだけで真の「知性」は生み出されるのでしょうか?さらに、知的エージェントの社会が「集団思考」や個人の認知バイアスを克服できるようにするために、個々のエージェントをどのように調整すればよいでしょうか?
**サービスとしてのエージェント (AaaS)。 **LLM ベースのエージェントは大規模モデル自体よりも複雑であり、中小企業や個人がローカルに構築するのはより困難であるため、クラウド ベンダーは、サービスの形でインテリジェント エージェント、つまりエージェントの実装を検討できます。サービスとして。他のクラウド サービスと同様、AaaS には、ユーザーに高い柔軟性とオンデマンドのセルフサービスを提供する可能性があります。