ARC-AGI-3 объявил о самом масштабном тесте человечества в истории: все уровни были пройдены людьми, у ИИ всё ещё есть пробелы

robot
Генерация тезисов в процессе

МЕ Новости, 15 апреля (UTC+8), согласно мониторингу 动察Beating, фонд ARC Prize опубликовал набор данных о человеческих результатах ARC-AGI-3, который является крупнейшим исследованием тестирования человека в серии ARC-AGI на сегодняшний день, с участием 458 человек. Набор данных содержит 342 полных записи воспроизведения человеческих действий, охватывающих 25 публичных сред, и полностью открыт для общественности. ARC-AGI-3 включает 135 абстрактных сред для логического мышления, тестируемым не предоставляются инструкции по игре, им нужно самостоятельно исследовать, делать выводы и разрабатывать стратегии. Тестирование проводится в офлайн-центре в Сан-Франциско, продолжительностью 90 минут, участники получают базовую оплату около 130 долларов и по 5 долларов за каждую успешно пройденную среду. Все тесты проводятся на условиях «первого прохождения», то есть каждый участник видит задачу один раз и пытается пройти её один раз, оценивается способность к обучению и адаптации к новым задачам. Человеческая и ИИ-информация полностью совпадает, никаких различий в данных нет. Основной вывод: все среды ARC-AGI-3 были пройдены человеком, минимум двумя независимыми участниками, большинство сред — более чем пятью участниками. Фонд ARC Prize заявил: «Мы еще не достигли AGI, и эти данные — тому подтверждение». С момента предварительного просмотра ARC-AGI-3 было получено почти 1 миллион оценочных submissions от ИИ в открытых средах. На основе этих данных фонд объявил о двух изменениях в правилах оценки: во-первых, уровень человеческих результатов для каждого задания изменен с «второго лучшего игрока» на «медианного игрока», чтобы снизить влияние удачи на результат; во-вторых, лимит очков за одно задание увеличен с 100% до 115%, чтобы избежать снижения общего результата из-за плохого выполнения одного задания. Общий эффект этих изменений — небольшое повышение результатов как у человека, так и у ИИ примерно на 0,5 процентных пункта. (Источник: BlockBeats)

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить