AIMPACT メッセージ、4 月 30 日(UTC+8)、Dan Fried が X プラットフォームで、実際のユーザ閲覧履歴に基づくベンチマークテストを構築したと発表しました。これには約200のマルチサイトタスクが含まれ、長時間のタスク(多くは数時間かかるもの)の成功率と効率を評価することを目的としています。関連論文は既に公開されており、Lawrence K. らが主導しています。この研究は、複雑で長期間にわたるウェブページタスクにおけるエージェントのパフォーマンス評価に焦点を当てています。(出典:InFoQ)
実際の閲覧履歴に基づく長期タスクベンチマークテストのリリース
AIMPACT メッセージ、4 月 30 日(UTC+8)、Dan Fried が X プラットフォームで、実際のユーザ閲覧履歴に基づくベンチマークテストを構築したと発表しました。これには約200のマルチサイトタスクが含まれ、長時間のタスク(多くは数時間かかるもの)の成功率と効率を評価することを目的としています。関連論文は既に公開されており、Lawrence K. らが主導しています。この研究は、複雑で長期間にわたるウェブページタスクにおけるエージェントのパフォーマンス評価に焦点を当てています。(出典:InFoQ)