ARC-AGI-3 оголошує про найбільший у історії тест людства: усі рівні подолані людьми, але ШІ все ще має прогалини

robot
Генерація анотацій у процесі

Місцеві новини ME, 15 квітня (UTC+8), за даними моніторингу Дунчяо Beating, Фонд ARC Prize опублікував набір даних людських показників ARC-AGI-3, це найбільше дослідження людського тестування в серії ARC-AGI на сьогодні, з участю 458 осіб.
Набір даних містить 342 повних записи людських операцій, охоплюючи 25 публічних середовищ, всі відкриті для публічного доступу.
ARC-AGI-3 включає 135 абстрактних тестових середовищ, де тестувальники не отримують жодних інструкцій щодо гри, їм потрібно самостійно досліджувати, робити висновки та розробляти стратегії.
Тестування проводиться в офлайн-центрі Сан-Франциско, тривалістю 90 хвилин кожне, учасники отримують приблизно 130 доларів США базової зарплати та по 5 доларів за кожне пройдене середовище.
Усі тести проводяться за умовою «першого проходження», тобто кожен бачить лише один раз і намагається один раз, що оцінює здатність до навчання та адаптації при нових задачах.
Люди та штучний інтелект отримують однакову інформацію, без будь-яких інформаційних різниць.
Ключовий висновок: всі середовища ARC-AGI-3 пройдені людьми, при цьому щонайменше двоє незалежних учасників завершили кожне середовище, більшість середовищ пройшли понад п’ять осіб.
Фонд ARC Prize заявляє: «Ми ще не досягли AGI, і цей набір даних є доказом».
З моменту попереднього перегляду ARC-AGI-3, було отримано майже 1 мільйон подань AI-оцінок у публічних середовищах.
На основі цих даних фонд оголосив про дві зміни у правилах оцінювання:
по-перше, базовий людський показник для кожного рівня змінено з «другого найкращого гравця» на «медіанного гравця», щоб зменшити вплив випадковості на результат;
по-друге, обмеження балу за один рівень підвищено з 100% до 115%, щоб уникнути поганого виступу на одному рівні, що може знизити загальний результат.
Загальний ефект цих двох змін — незначне підвищення балів людей та AI приблизно на 0,5 відсоткових пунктів.
(Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити