ARC-AGI-3: Новый эталон Chollet показывает, что современный ИИ по сути не умеет адаптироваться в реальном времени

robot
Генерация тезисов в процессе

Что произошло

Франсуа Шолле опубликовал ARC-AGI-3 — новый бенчмарк для оценки прогресса AGI.

Что именно

  • Шолле — автор Keras; с 2019 года, когда вышла его работа《On the Measure of Intelligence》, он исследует, как измерять интеллект. Его ключевая мысль: хороший бенчмарк должен выявлять слабые места системы, а не подтверждать уже существующие утверждения.
  • В ARC-AGI-3 добавлен тест на «интерактивное рассуждение»: сможет ли система, опираясь на здравый смысл, делать попытки и корректировать себя на ходу в новых условиях.
  • Результат прямой: человеческие тестировщики с первой попытки решили все; у топовых AI-моделей эффективность действий ниже 1%.
  • Этот бенчмарк будет продолжать обновляться: оценки предыдущих версий резко подскочили после улучшений в машинном рассуждении и навыках работы с кодом — поэтому бенчмарк нужно постоянно ужесточать, чтобы выжать то, чего сейчас не хватает.

Люди vs. текущие модели

Показатель Люди Топовые AI-модели
Решено с первой попытки / эффективность действий 100% <1%

Ключевая мысль: это не «количественное» проблему, которую можно решить дообучением, а коренной дефицит навыка «реагировать по месту».

Почему это важно

  • Если системе нужно много подготовки, чтобы справиться с задачами, которые человек «сразу видит», это фундаментальная проблема для траектории AGI: мы, похоже, измеряем интеллект неверными метриками?
  • Шолле говорит не о том, что нынешний AI плох, а о том, что: память и сопоставление паттернов, наращенные за счет масштабирования, дают ограниченную информацию; бенчмарк, который способен измерять «реальную приспособляемость» к новым условиям, ближе к тому, что нас действительно интересует.
  • Для исследователей и разработчиков сигнал ARC-AGI-3 предельно ясен: разрыв не закрыть одним наращиванием масштаба; нужны структурные изменения в механизмах обучения и адаптации.

Оценка влияния

  • Важность: высокая
  • Категория: исследования в области AI, технологические инсайты, тренды отрасли

Вывод: это ранний, но критически важный сигнал — он полезнее для исследователей и builders: у тех, кто сможет внедрить архитектурные инновации в механизмах обучения и адаптации, будет преимущество; у тех, кто просто делает сделки, в этом направлении связи немного.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить