ARC-AGI-3 объявил о самом масштабном тестировании человека в истории: все уровни были пройдены человеком, у ИИ всё ещё есть пробелы

robot
Генерация тезисов в процессе

МЕ Новости, 15 апреля (UTC+8), по данным мониторинга 动察Beating, Фонд ARC Prize опубликовал набор данных о человеческих результатах ARC-AGI-3, который является крупнейшим исследованием тестирования человека в серии ARC-AGI на сегодняшний день, с участием 458 человек. Набор данных содержит 342 полных записи воспроизведения человеческих операций, охватывающих 25 публичных окружений, все открыты для общего доступа. ARC-AGI-3 включает 135 абстрактных сред для логического мышления, тестируемым не предоставляются инструкции по игре, им нужно самостоятельно исследовать, делать выводы и разрабатывать стратегии. Тестирование проводится в офлайн-центре в Сан-Франциско, продолжительностью 90 минут, участники получают базовую оплату около 130 долларов и по 5 долларов за каждое успешно пройденное окружение. Все тесты проводятся на условиях «первого прохождения», то есть каждый участник видит задачу один раз и пытается пройти её один раз, оценивая способность к обучению и адаптации к новым проблемам. Человек и ИИ получают одинаковую информацию, никаких различий в данных нет. Основной вывод: все окружения ARC-AGI-3 успешно пройдены человеком, минимум двумя независимыми участниками каждое, большинство окружений — более пяти участников. Фонд ARC Prize заявил: «Мы еще не достигли AGI, и эти данные — тому подтверждение». С момента предварительного просмотра ARC-AGI-3 в публичных окружениях было получено почти 1 миллион оценочных submissions от ИИ. На основе этих данных фонд одновременно объявил о двух изменениях правил оценки: во-первых, заменить человеческий эталон с «второго лучшего игрока» на «медианного игрока», чтобы снизить влияние удачи на результат; во-вторых, повысить максимальный балл за одно окружение с 100% до 115%, чтобы избежать ситуации, когда плохое выполнение в одном окружении негативно влияет на общий результат. Чистый эффект этих изменений — небольшое повышение баллов как у человека, так и у ИИ примерно на 0,5 процентных пункта. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить