ARC-AGI-3 оголошує про найбільший у історії людський тест: усі рівні подолані людьми, але штучний інтелект все ще має прогалини

robot
Генерація анотацій у процесі

ME News Новини, 15 квітня (UTC+8), згідно з моніторингом Датчата Beating, Фонд ARC Prize оголосив про набір даних людських показників ARC-AGI-3, це найбільше дослідження людського тестування в серії ARC-AGI, з участю 458 осіб.
Набір даних містить 342 повних записи людських операцій, охоплюючи 25 публічних середовищ, всі відкриті для публічного доступу.
ARC-AGI-3 включає 135 абстрактних середовищ для логічного мислення, тестувальники не отримують жодних інструкцій щодо гри, їм потрібно самостійно досліджувати, робити висновки та розробляти стратегії.
Тестування проводиться в офлайн-центрі Сан-Франциско, тривалістю 90 хвилин кожне, учасники отримують приблизно 130 доларів США базової зарплати та по 5 доларів за кожне пройдене середовище.
Усі тести проводяться за умовою «першого проходження», тобто кожен бачить завдання один раз і намагається один раз, що оцінює здатність до навчання та адаптації при нових задачах.
Люди та штучний інтелект отримують однакову інформацію, без будь-яких інформаційних переваг.
Ключовий висновок: всі середовища ARC-AGI-3 пройдені людьми, при цьому щонайменше двоє незалежних учасників завершили кожне середовище, більшість середовищ пройшли понад п’ять учасників.
Фонд ARC Prize заявляє: «Ми ще не досягли AGI, і цей набір даних є доказом».
З моменту попереднього перегляду ARC-AGI-3, було отримано майже 1 мільйон подань AI-оцінок у публічних середовищах.
На основі цих даних фонд оголосив про дві зміни у правилах оцінювання: перша — замість «другого за кращим гравцем» використовувати «медіанного гравця» для людських орієнтирів, щоб зменшити вплив випадковості на результати; друга — підвищити максимальний бал за одне середовище з 100% до 115%, щоб уникнути зниження загального результату через погану продуктивність у одному середовищі.
Чистий ефект обох змін — незначне підвищення балів людей та AI приблизно на 0,5 відсоткових пунктів.
(Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено