ARC-AGI-3:Новий бенчмарк Chollet показує, що сучасний ШІ абсолютно не здатен на адаптацію в реальному часі

robot
Генерація анотацій у процесі

Що сталося

Франсуа Шолле випустив ARC-AGI-3, новий стандарт для вимірювання прогресу AGI.

Конкретні деталі

  • Шолле є автором Keras, з 2019 року займається дослідженнями щодо вимірювання інтелекту. Його основна ідея: добрий стандарт має виявляти слабкі місця системи, а не підтверджувати існуючі твердження.
  • ARC-AGI-3 включає тест на “інтерактивне міркування”, щоб перевірити, чи може система на основі загальноприйнятих знань в нових ситуаціях адаптуватися на ходу.
  • Результати дуже очевидні: людські тестувальники з першого разу вирішили всі завдання; ефективність дій провідних AI моделей менша за 1%.
  • Цей стандарт буде постійно оновлюватися: оцінки попередньої версії значно зросли після покращення здатностей моделі до міркування та коду, тому стандарт має постійно підвищуватися, щоб виявити, чого ще не вистачає.

Люди vs. сучасні моделі

Показник Люди Провідні AI моделі
Ефективність розв’язання/дій з першого разу 100% <1%

Ключова інформація: це не проблема, яку можна вирішити за допомогою доопрацювання, а фундаментальна відсутність здатності до “реакції на місці”.

Чому це важливо

  • Якщо системі потрібно багато підготовки, щоб виконати завдання, яке людина може “побачити з першого погляду”, це є фундаментальною проблемою для шляху AGI: чи вимірюємо ми інтелект неправильними показниками?
  • Шолле не говорить, що сучасний AI поганий, а говорить: інформація, отримана за допомогою накопичення пам’яті та узгодження шаблонів, є обмеженою; лише стандарти, які можуть виміряти “реальну адаптивність у нових ситуаціях”, ближчі до того, що нас цікавить.
  • Для дослідників і розробників сигнал ARC-AGI-3 дуже чіткий: просто накопичення масштабу не закриє цю прогалину; механізми навчання та адаптації потребують структурних змін.

Оцінка впливу

  • Важливість: висока
  • Категорія: дослідження AI, технологічні інсайти, тенденції в промисловості

Висновок: це ранній, але ключовий сигнал, який має більше значення для дослідників і творців — ті, хто зможе зробити архітектурні інновації в механізмах навчання та адаптації, отримають перевагу; ті, хто займається лише торгівлею, в цьому напрямку не мають великого значення.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Популярні активності Gate Fun

    Дізнатися більше
  • Рин. кап.:$2.27KХолдери:2
    0.00%
  • Рин. кап.:$2.37KХолдери:2
    1.04%
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$2.24KХолдери:1
    0.00%
  • Рин. кап.:$2.25KХолдери:1
    0.00%
  • Закріпити