ARC-AGI-3 оголосив про найбільший у історії людський тест: усі рівні подолані людьми, але штучний інтелект все ще має прогалини

robot
Генерація анотацій у процесі

МЕ Новини повідомляють, 15 квітня (UTC+8), згідно з моніторингом Датчач Beating, Фонд ARC Prize опублікував набір даних людських показників ARC-AGI-3, який є найбільшим дослідженням людського тестування в серії ARC-AGI, з участю 458 осіб.
Набір даних містить 342 повних записи людських операцій, охоплюючи 25 публічних середовищ, і всі вони відкриті для публічного доступу.
ARC-AGI-3 включає 135 абстрактних середовищ для логічних висновків, де тестувальники не отримують жодних інструкцій щодо гри, їм потрібно самостійно досліджувати, робити висновки та розробляти стратегії.
Тестування проводиться в офлайн-центрі Сан-Франциско, тривалістю 90 хвилин кожне, учасники отримують базову оплату близько 130 доларів США та по 5 доларів за кожне пройдене середовище.
Усі тести проводяться за умовою «першого проходження», тобто кожен бачить завдання один раз і намагається пройти його один раз, що оцінює здатність до навчання та адаптації при нових задачах.
Люди та штучний інтелект отримують однакову інформацію, без будь-яких інформаційних переваг.
Ключовий висновок: всі середовища ARC-AGI-3 були пройдені людьми, при цьому щонайменше двоє незалежних учасників завершили кожне середовище, а більшість — п’ять і більше.
Фонд ARC Prize заявляє: «Ми ще не досягли AGI, і цей набір даних є доказом».
З моменту попереднього перегляду ARC-AGI-3, у відкритих середовищах було подано майже 1 мільйон оцінок AI.
На основі цих даних фонд оголосив про дві зміни у правилах оцінювання:
по-перше, базовий рівень людських результатів для кожного рівня тепер визначається «медіанним гравцем», а не «другим за кращими», щоб зменшити вплив випадковості;
по-друге, максимальний бал за один рівень підвищено з 100% до 115%, щоб уникнути зниження загального результату через поганий виступ у одному рівні.
Загальний ефект цих змін — незначне підвищення балів людей та AI приблизно на 0,5 відсоткових пунктів.
(Джерело: BlockBeats)

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити