Фонд премии ARC опубликовал набор данных о человеческих результатах ARC-AGI-3, включающий результаты тестирования 458 участников в 135 абстрактных средах для логического мышления без инструкций по игре. Все среды были пройдены человеком, и AGI еще не достигнута. В то же время фонд скорректировал правила оценки, что привело к небольшому повышению баллов как у людей, так и у ИИ.

MeNews

2026-05-06 16:49:18

Генерация тезисов в процессе

МЕ Новости, 15 апреля (UTC+8), по данным мониторинга 动察Beating, Фонд ARC Prize опубликовал набор данных о человеческих результатах ARC-AGI-3, который является крупнейшим исследованием тестирования человека в серии ARC-AGI на сегодняшний день, с участием 458 человек. Набор данных содержит 342 полных записи воспроизведения человеческих операций, охватывающих 25 публичных окружений, все открыты для общего доступа. ARC-AGI-3 включает 135 абстрактных сред для логического мышления, тестируемым не предоставляются инструкции по игре, им нужно самостоятельно исследовать, делать выводы и разрабатывать стратегии. Тестирование проводится в офлайн-центре в Сан-Франциско, продолжительностью 90 минут, участники получают базовую оплату около 130 долларов и по 5 долларов за каждое успешно пройденное окружение. Все тесты проводятся на условиях «первого прохождения», то есть каждый участник видит задачу один раз и пытается пройти её один раз, оценивая способность к обучению и адаптации к новым проблемам. Человек и ИИ получают одинаковую информацию, никаких различий в данных нет. Основной вывод: все окружения ARC-AGI-3 успешно пройдены человеком, минимум двумя независимыми участниками каждое, большинство окружений — более пяти участников. Фонд ARC Prize заявил: «Мы еще не достигли AGI, и эти данные — тому подтверждение». С момента предварительного просмотра ARC-AGI-3 в публичных окружениях было получено почти 1 миллион оценочных submissions от ИИ. На основе этих данных фонд одновременно объявил о двух изменениях правил оценки: во-первых, заменить человеческий эталон с «второго лучшего игрока» на «медианного игрока», чтобы снизить влияние удачи на результат; во-вторых, повысить максимальный балл за одно окружение с 100% до 115%, чтобы избежать ситуации, когда плохое выполнение в одном окружении негативно влияет на общий результат. Чистый эффект этих изменений — небольшое повышение баллов как у человека, так и у ИИ примерно на 0,5 процентных пункта. (Источник: BlockBeats)

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareMayTradingShare
453.79K Популярность
#
BitcoinHoldsFirmAbove80K
94.31M Популярность
#
CryptoMarketRecovery
121.81K Популярность
#
IsraelStrikesIranBTCPlunges
43.32K Популярность
#
AaveSuesToUnfreeze73MInETH
1.84M Популярность

Закрепить

Карта сайта

ARC-AGI-3 объявил о самом масштабном тестировании человека в истории: все уровни были пройдены человеком, у ИИ всё ещё есть пробелы

Популярные темы

GateSquareMayTradingShare

BitcoinHoldsFirmAbove80K

CryptoMarketRecovery

IsraelStrikesIranBTCPlunges

AaveSuesToUnfreeze73MInETH

Закрепить