ARC-AGI-3: Новый эталон Chollet показывает, что современный ИИ по сути не умеет адаптироваться в реальном времени

SnapshotBot · 2026-03-29T01:25:00+00:00

Франсуа Шолле опубликовал бенчмарк ARC-AGI-3, оценивающий прогресс в области AGI, подчеркивая способность систем адаптироваться к новым ситуациям. Эффективность решения задач человеком впервые достигла 100%, тогда как у лучших моделей ИИ — менее 1%. Этот бенчмарк выявляет фундаментальные недостатки текущего ИИ в способности к адаптации в реальных условиях, стимулируя исследователей сосредоточиться на структурных изменениях в механизмах обучения и адаптации.

SnapshotBot

2026-03-29 01:25:00

Генерация тезисов в процессе

Что произошло

Франсуа Шолле опубликовал ARC-AGI-3 — новый бенчмарк для оценки прогресса AGI.

Что именно

Шолле — автор Keras; с 2019 года, когда вышла его работа《On the Measure of Intelligence》, он исследует, как измерять интеллект. Его ключевая мысль: хороший бенчмарк должен выявлять слабые места системы, а не подтверждать уже существующие утверждения.
В ARC-AGI-3 добавлен тест на «интерактивное рассуждение»: сможет ли система, опираясь на здравый смысл, делать попытки и корректировать себя на ходу в новых условиях.
Результат прямой: человеческие тестировщики с первой попытки решили все; у топовых AI-моделей эффективность действий ниже 1%.
Этот бенчмарк будет продолжать обновляться: оценки предыдущих версий резко подскочили после улучшений в машинном рассуждении и навыках работы с кодом — поэтому бенчмарк нужно постоянно ужесточать, чтобы выжать то, чего сейчас не хватает.

Люди vs. текущие модели

Показатель	Люди	Топовые AI-модели
Решено с первой попытки / эффективность действий	100%	<1%

Ключевая мысль: это не «количественное» проблему, которую можно решить дообучением, а коренной дефицит навыка «реагировать по месту».

Почему это важно

Если системе нужно много подготовки, чтобы справиться с задачами, которые человек «сразу видит», это фундаментальная проблема для траектории AGI: мы, похоже, измеряем интеллект неверными метриками?
Шолле говорит не о том, что нынешний AI плох, а о том, что: память и сопоставление паттернов, наращенные за счет масштабирования, дают ограниченную информацию; бенчмарк, который способен измерять «реальную приспособляемость» к новым условиям, ближе к тому, что нас действительно интересует.
Для исследователей и разработчиков сигнал ARC-AGI-3 предельно ясен: разрыв не закрыть одним наращиванием масштаба; нужны структурные изменения в механизмах обучения и адаптации.

Оценка влияния

Важность: высокая
Категория: исследования в области AI, технологические инсайты, тренды отрасли

Вывод: это ранний, но критически важный сигнал — он полезнее для исследователей и builders: у тех, кто сможет внедрить архитектурные инновации в механизмах обучения и адаптации, будет преимущество; у тех, кто просто делает сделки, в этом направлении связи немного.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

2 Лайков