Конфиденциальный AI-базовый уровень (ARC-AGI-X): влияние на криптовалютный рынок незначительно

robot
Генерация тезисов в процессе

Заголовок

Ученый Уортонской школы бизнеса Итан Моллик предложил “секретный” ARC-AGI-X бенчмарк, чтобы более справедливо оценивать ИИ модели

Резюме

Итан Моллик (доцент Уортонской школы, автор “Co-Intelligence”, участник 2024 TIME100 AI) предложил идею бенчмарка “ARC-AGI-X” в социальных сетях: доверить тестирование надежным третьим лицам, не раскрывая задания и типы вопросов, а рейтинги публиковать, но содержимое тестов держать в секрете, чтобы предотвратить обучение моделей на специальных тестовых заданиях. Его основная идея заключается в том, чтобы, улучшив методы оценки, действительно измерить прогресс в общем интеллекте, а не продолжать поощрять увеличение масштабов и “зазубривание ответов”.

Анализ

Существующий бенчмарк ARC-AGI был предложен Франсуа Шолетом в 2019 году и использует новые сетевые головоломки для тестирования “потока интеллекта”. Человеческая точность превышает 85%, в то время как ИИ-системы (даже к 2026 году с ARC-AGI-3) все еще ниже 50%. Причины разрыва:

  • Открытая база вопросов приводит к переобучению, модели “разбирают тесты”, а не учатся
  • Зависимость от неэффективного переборного поиска, а не от эффективного вывода

Идея Моллика заключается в использовании “секретной базы вопросов + внешней проверки экспертами”, чтобы предотвратить “обучение по ключевым точкам”, заставляя модели действительно прогрессировать в выводах и обобщениях. Это касается старой проблемы: открытая база вопросов делает модели “кажущимися сильнее”, но не обязательно обладающими реальной переносимой способностью.

Результаты ARC Prize 2025 также это подтверждают:

  • За счет усиления циклов вывода и адаптации во время тестирования баллы немного повысились
  • Но эффективность все еще далеко не на уровне человека
  • Поэтому бенчмарк должен больше акцентироваться на “эффективности обучения и обобщении”, а не на “памяти и донастройках”

Возможные последствия:

  • Дизайн экспериментов: Могут побудить такие лаборатории, как OpenAI, Anthropic, изменить методы оценки, снизив простое “накачивание баллов”
  • Соревнования и открытый исходный код: Если секретный механизм будет признан, это может повысить сравнительную эффективность экосистемы открытого кода и уменьшить вводящую в заблуждение шумиху вокруг вех AGI
  • Отраслевое общение: Моллик продолжает строить мосты между академией и индустрией, продвигая “реально применимые рамки оценки” в мейнстримные обсуждения

Ключевая информация:

  • Основная оценка: Проблемы переобучения и “накачивания баллов” существующих открытых бенчмарков серьезно искажают оценку истинных выводящих способностей моделей; секретные оценки могут помочь
  • Связь с рынком: Недавнее влияние на ценообразование криптоактивов и торговые настроения невелико, обсуждения остаются на уровне методов оценки ИИ
  • Точки наблюдения: Если в будущем сектор крипто ИИ начнет использовать “секретные бенчмарки/рейтинги”, это может вызвать краткосрочный интерес

Оценка влияния

  • Важность: Высокая (влияет на методы оценки ИИ и отраслевую риторику)
  • Категория: Технические инсайты, исследование ИИ, тенденции в индустрии

Заключение: Для криптотрейдеров и краткосрочных инвесторов эта тема сейчас не актуальна; настоящие бенефициары — это исследователи, сосредоточенные на оценке ИИ и проверке способностей моделей. Если вы активный трейдер на крипторынке, сейчас не нужно действовать; долгосрочные инвесторы могут пассивно следить, дождавшись сигналов о “влиянии механизмов оценки ИИ на сектор крипто ИИ”.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$0.1Держатели:2
    0.00%
  • РК:$0.1Держатели:1
    0.00%
  • РК:$2.25KДержатели:1
    0.00%
  • РК:$2.26KДержатели:1
    0.00%
  • РК:$2.26KДержатели:1
    0.00%
  • Закрепить