ARC-AGI-3が史上最大規模の人間テストを発表:すべてのレベルを人間が攻略、AIにはまだ差がある

robot
概要作成中

ME News ニュース、4月15日(UTC+8)、動察Beatingの監測によると、ARC Prize基金会はARC-AGI-3の人間のパフォーマンスデータセットを発表しました。これはARC-AGIシリーズでこれまで最大規模の人間テスト研究で、参加者は合計458名です。データセットには342件の完全な人間操作のリプレイ記録が含まれ、25の公開環境をカバーし、すべてオープンソース化されています。 ARC-AGI-3には135の抽象推論環境が含まれ、テスターはゲームの説明を受けず、自ら探索し、ルールを推測し、戦略を立てる必要があります。テストはサンフランシスコのオフラインテストセンターで行われ、各回は90分間、参加者は約130ドルの基本給と、各環境をクリアするごとに5ドルの報酬を得ます。すべてのテストは「初回クリア」条件で行われ、各人は一度だけ見て一度だけ挑戦し、新しい問題に対する学習と適応能力を測定します。人間とAIは完全に同じ情報を得ており、情報格差はありません。 核心結論:ARC-AGI-3のすべての環境は人間がクリアし、各環境は少なくとも2人の独立した参加者が完了し、多くの環境では5人以上がクリアしています。ARC Prize基金会は「私たちはまだAGIを実現していませんが、このデータセットが証拠です」と述べています。 ARC-AGI-3のプレビュー以来、公開環境には約100万件のAI評価提出が寄せられています。これらのデータに基づき、基金会は同時に2つの評価ルールの調整を発表しました:一つは各問題の人間の基準を「2番目に良いプレイヤー」から「中央値のプレイヤー」に変更し、運の要素によるスコアへの影響を減らすこと。もう一つは、単一問題のスコア上限を100%から115%に引き上げ、パフォーマンスが悪い場合に全体の成績を引きずらないようにすることです。これらの調整の純粋な効果は、人間とAIの両方のスコアが約0.5ポイントずつわずかに上昇したことです。(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし