実際の閲覧履歴に基づく長期タスクベンチマークテストのリリース

AIMPACT メッセージ、4 月 30 日(UTC+8)、Dan Fried が X プラットフォームで、実際のユーザ閲覧履歴に基づくベンチマークテストを構築したと発表しました。これには約200のマルチサイトタスクが含まれ、長時間のタスク(多くは数時間かかるもの)の成功率と効率を評価することを目的としています。関連論文は既に公開されており、Lawrence K. らが主導しています。この研究は、複雑で長期間にわたるウェブページタスクにおけるエージェントのパフォーマンス評価に焦点を当てています。(出典:InFoQ)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし
  • ピン