Andrej Karpathyの最新内部Agent見解共有は、現在のAI分野における最大の過ちを直接指摘している。人々はAgentに仕事を強制しており、まず下層の大規模モデルを完全に理解すべきであるという点を完全に無視している。AKは直感に反する結論を述べている。現在Agentの最前線に立っているのは大企業ではなく、独立した開発者や起業家だ。動画は記事の最後に添付している。
2016年のOpenAIでの経験を振り返ると、KarpathyはTim ShiやJim Fanとともに「World of Bits」というプロジェクトに参加していた。当時の彼らの意図は、強化学習エージェントをゲームのようなテストから解放し、『モンテズマの復讐』をプレイさせるのではなく、コンピュータ、キーボード、マウスを使わせることだった。
カルパシー最新のAgent見解:大手企業はエージェントの中核技術を掌握しておらず、個人開発者が最前線で覇権を握っている。
Andrej Karpathyの最新内部Agent見解共有は、現在のAI分野における最大の過ちを直接指摘している。人々はAgentに仕事を強制しており、まず下層の大規模モデルを完全に理解すべきであるという点を完全に無視している。AKは直感に反する結論を述べている。現在Agentの最前線に立っているのは大企業ではなく、独立した開発者や起業家だ。動画は記事の最後に添付している。
2016年にはすでにOpenAIがこの落とし穴にはまり、その代償として丸5年の時間を費やした。
Karpathyが伝えたい核となるロジック。第一歩は、エージェントがすべてを請け負う幻想を直ちにやめ、まず下層のモデルを理解すること。第二歩は、業界の現実を認識すること。デモは極めて簡単だが、製品化には10年かかる。自動運転がこれを証明しており、基礎段階を飛ばせば、構築したものすべてが瞬時に崩壊する。第三歩は、エージェント自体は製品とは言えず、基盤となる大規模モデルこそが真の核心であることを理解すること。基礎をしっかり固めれば、エージェントは自然に出現する。
2016年のOpenAIでの経験を振り返ると、KarpathyはTim ShiやJim Fanとともに「World of Bits」というプロジェクトに参加していた。当時の彼らの意図は、強化学習エージェントをゲームのようなテストから解放し、『モンテズマの復讐』をプレイさせるのではなく、コンピュータ、キーボード、マウスを使わせることだった。
彼らはエージェントが、極めてシンプルなウェブページで航空券を予約したり、宅配を注文したりするような、本当に役立つ日常タスクを実行できるように望んでいた。当時、彼らはAIにマウスやキーボードのボタンを狂ったようにクリックさせ、運任せでより高度な知能の世界に突入しようとした。結果は明白で、このプロジェクトは完全に失敗した。
当時の技術には条件が整っておらず、チームが持っていた唯一のツールは強化学習だけだった。その時点で最も正しいアプローチは、AIエージェントを完全に忘れ、すべての精力を言語モデルの構築に集中することだった。
時は5年後、Karpathyは自動運転分野に一時的に関わった後、AIエージェントが再び業界の絶対的なホットトピックになっていることを発見したが、ツールチェーン全体は劇的に変化していた。今日、これらの問題を解決する方法は完全に再構築されており、エージェントを開発する人はおそらく強化学習技術を一切使う必要がない。この進化の仕方は、当時の誰の予想も超えていた。
現在、誰もが熱狂的にエージェントを追い求めている。なぜなら、汎用人工知能は最終的に何らかのAIエージェントの形で現れると容易に連想されるからだ。将来、おそらく群れをなすエージェントが現れ、さらにはデジタル実体の巨大な組織や文明を形成するだろう。これは確かに胸が高鳴る話だ。
この熱狂に対して、Karpathyは冷水を浴びせることを選んだ。ある大きなカテゴリーの問題は、想像力を働かせるのが簡単で、クールなデモを作るのも簡単だが、それを本当の製品にするのは異常に難しい。
自動運転は極めて典型的な例だ。車が街区を自動で走行するデモを想像するのは非常に簡単だが、それを実際に製品として展開するには10年かかる。VR分野も同様だ。エージェントもこの特徴に完璧に当てはまる。想像しデモを作るのは簡単だが、実際に機能させるには、開発者は死に物狂いで10年取り組む覚悟をしなければならない。
新しいアイデアを求めて、Karpathyは再び神経科学からインスピレーションを得ることを提案する。深層学習の初期はまさにそうだった。今、エージェントを開発するにあたり、再び脳の動作パターンを参考にすることができる。
完全なデジタル実体は、人間が持つすべての認知ツールを備える必要がある。ソリューションの一部としての言語モデルに加えて、事前に計画を立て行動を反省する内部アシスタントも必要だ。
脳の構造は完璧な参考青写真を提供する。海馬のAIエージェントにおける等価物は、記憶痕跡を記録し、ベクトル埋め込み技術を用いてインデックス化し検索を実現することだ。デジタル実体の視覚皮質と聴覚皮質はどう構築するかおおよそ分かっているが、視床の役割も同様に考察に値する。視床はすべての情報を統合する役割を担い、いわば意識の所在地と言える。複数のデジタル実体が制御権やマイクを奪い合い次の行動を決定するとき、視床はこの複雑な衝突を処理する。Karpathyは特にDavid Eaglemanの『脳と行動』という本を推薦し、神経科学にはデジタル個体を設計する絶好のインスピレーションが含まれていると考えている。
最後に、Karpathyは非常に破壊的な業界の現状を共有した。
現在、AIエージェントの能力の最前線に立っているのは、間違いなく今まさにエージェントを構築している独立した開発者や起業家である。OpenAIやDeepMindといった大規模言語モデル研究所は、現在エージェントのトラックにおいて最前線に立っていない。
OpenAIは巨大なTransformer言語モデルを訓練することに非常に長けている。もし今、新しいTransformer訓練方法を提案する論文が発表されたとしても、OpenAI内部ではおそらく2年半前にすでに試みており、成功または失敗の根本原因を明確に把握している。大企業はこの分野で絶対的な技術的壁を持っている。
新しいタイプのエージェントに関する論文が発表された場合、状況はまったく異なる。大企業のチームも同様に目新しく感じられる。なぜなら、彼らはこの特定のブランチで5年間秘密裏に研究してきたわけではないからだ。これは、巨人たちがこのトラックですべての草の根起業家やハッカーと同列に競争しなければならないことを意味する。
今まさにエージェントを開発している一般の開発者にとって、あなたたちはこの革新的な技術の最前線に立っている。
本文出典:AI寒武紀
リスク注意事項及び免責条項