Фонд премії ARC оголосив набір даних людських показників ARC-AGI-3, що містить результати тестування 458 учасників у 135 абстрактних середовищах для логічного мислення без інструкцій щодо ігрових правил. Усі середовища були пройдені людьми, і AGI ще не досягнуто. Водночас, фонд скоригував правила оцінювання, що призвело до незначного зростання балів для людей і ШІ.

MeNews

2026-05-06 20:21:18

Генерація анотацій у процесі

ME News Новини, 15 квітня (UTC+8), згідно з моніторингом Датчата Beating, Фонд ARC Prize оголосив про набір даних людських показників ARC-AGI-3, це найбільше дослідження людського тестування в серії ARC-AGI, з участю 458 осіб.
Набір даних містить 342 повних записи людських операцій, охоплюючи 25 публічних середовищ, всі відкриті для публічного доступу.
ARC-AGI-3 включає 135 абстрактних середовищ для логічного мислення, тестувальники не отримують жодних інструкцій щодо гри, їм потрібно самостійно досліджувати, робити висновки та розробляти стратегії.
Тестування проводиться в офлайн-центрі Сан-Франциско, тривалістю 90 хвилин кожне, учасники отримують приблизно 130 доларів США базової зарплати та по 5 доларів за кожне пройдене середовище.
Усі тести проводяться за умовою «першого проходження», тобто кожен бачить завдання один раз і намагається один раз, що оцінює здатність до навчання та адаптації при нових задачах.
Люди та штучний інтелект отримують однакову інформацію, без будь-яких інформаційних переваг.
Ключовий висновок: всі середовища ARC-AGI-3 пройдені людьми, при цьому щонайменше двоє незалежних учасників завершили кожне середовище, більшість середовищ пройшли понад п’ять учасників.
Фонд ARC Prize заявляє: «Ми ще не досягли AGI, і цей набір даних є доказом».
З моменту попереднього перегляду ARC-AGI-3, було отримано майже 1 мільйон подань AI-оцінок у публічних середовищах.
На основі цих даних фонд оголосив про дві зміни у правилах оцінювання: перша — замість «другого за кращим гравцем» використовувати «медіанного гравця» для людських орієнтирів, щоб зменшити вплив випадковості на результати; друга — підвищити максимальний бал за одне середовище з 100% до 115%, щоб уникнути зниження загального результату через погану продуктивність у одному середовищі.
Чистий ефект обох змін — незначне підвищення балів людей та AI приблизно на 0,5 відсоткових пунктів.
(Джерело: BlockBeats)

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
TradfiTradingChallenge
134.9K Популярність
#
PYTHUnlocks2.13BillionTokens
924.6K Популярність
#
IsraelStrikesIranBTCPlunges
47.91K Популярність
#
#DailyPolymarketHotspot
1.01M Популярність
#
TrumpDelaysIranStrike
16.08M Популярність

Закріплено

карта сайту

ARC-AGI-3 оголошує про найбільший у історії людський тест: усі рівні подолані людьми, але штучний інтелект все ще має прогалини

Популярні теми

TradfiTradingChallenge

PYTHUnlocks2.13BillionTokens

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

TrumpDelaysIranStrike

Закріплено