Конфиденциальный AI-базовый уровень (ARC-AGI-X): влияние на криптовалютный рынок незначительно

SnapshotBot · 2026-03-28T16:30:01+00:00

Учёный бизнес-школы Уортон, Ethan Mollick, предложил «конфиденциальный» бенчмарк ARC-AGI-X, предназначенный для справедливой оценки моделей ИИ, предотвращения переобучения и зависимости от памяти. Он использует закрытые базы данных вопросов и экспертную проверку для стимулирования развития способности моделей к рассуждению и обобщению. Этот метод оценки может изменить стандарты оценки ИИ, способствовать эффективной коммуникации в отрасли и развитию экосистемы открытого кода.

SnapshotBot

2026-03-28 16:30:01

Генерация тезисов в процессе

Заголовок

Ученый Уортонской школы бизнеса Итан Моллик предложил “секретный” ARC-AGI-X бенчмарк, чтобы более справедливо оценивать ИИ модели

Резюме

Итан Моллик (доцент Уортонской школы, автор “Co-Intelligence”, участник 2024 TIME100 AI) предложил идею бенчмарка “ARC-AGI-X” в социальных сетях: доверить тестирование надежным третьим лицам, не раскрывая задания и типы вопросов, а рейтинги публиковать, но содержимое тестов держать в секрете, чтобы предотвратить обучение моделей на специальных тестовых заданиях. Его основная идея заключается в том, чтобы, улучшив методы оценки, действительно измерить прогресс в общем интеллекте, а не продолжать поощрять увеличение масштабов и “зазубривание ответов”.

Анализ

Существующий бенчмарк ARC-AGI был предложен Франсуа Шолетом в 2019 году и использует новые сетевые головоломки для тестирования “потока интеллекта”. Человеческая точность превышает 85%, в то время как ИИ-системы (даже к 2026 году с ARC-AGI-3) все еще ниже 50%. Причины разрыва:

Открытая база вопросов приводит к переобучению, модели “разбирают тесты”, а не учатся
Зависимость от неэффективного переборного поиска, а не от эффективного вывода

Идея Моллика заключается в использовании “секретной базы вопросов + внешней проверки экспертами”, чтобы предотвратить “обучение по ключевым точкам”, заставляя модели действительно прогрессировать в выводах и обобщениях. Это касается старой проблемы: открытая база вопросов делает модели “кажущимися сильнее”, но не обязательно обладающими реальной переносимой способностью.

Результаты ARC Prize 2025 также это подтверждают:

За счет усиления циклов вывода и адаптации во время тестирования баллы немного повысились
Но эффективность все еще далеко не на уровне человека
Поэтому бенчмарк должен больше акцентироваться на “эффективности обучения и обобщении”, а не на “памяти и донастройках”

Возможные последствия:

Дизайн экспериментов: Могут побудить такие лаборатории, как OpenAI, Anthropic, изменить методы оценки, снизив простое “накачивание баллов”
Соревнования и открытый исходный код: Если секретный механизм будет признан, это может повысить сравнительную эффективность экосистемы открытого кода и уменьшить вводящую в заблуждение шумиху вокруг вех AGI
Отраслевое общение: Моллик продолжает строить мосты между академией и индустрией, продвигая “реально применимые рамки оценки” в мейнстримные обсуждения

Ключевая информация:

Основная оценка: Проблемы переобучения и “накачивания баллов” существующих открытых бенчмарков серьезно искажают оценку истинных выводящих способностей моделей; секретные оценки могут помочь
Связь с рынком: Недавнее влияние на ценообразование криптоактивов и торговые настроения невелико, обсуждения остаются на уровне методов оценки ИИ
Точки наблюдения: Если в будущем сектор крипто ИИ начнет использовать “секретные бенчмарки/рейтинги”, это может вызвать краткосрочный интерес

Оценка влияния

Важность: Высокая (влияет на методы оценки ИИ и отраслевую риторику)
Категория: Технические инсайты, исследование ИИ, тенденции в индустрии

Заключение: Для криптотрейдеров и краткосрочных инвесторов эта тема сейчас не актуальна; настоящие бенефициары — это исследователи, сосредоточенные на оценке ИИ и проверке способностей моделей. Если вы активный трейдер на крипторынке, сейчас не нужно действовать; долгосрочные инвесторы могут пассивно следить, дождавшись сигналов о “влиянии механизмов оценки ИИ на сектор крипто ИИ”.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

1 Лайков