Конфіденційний базовий рівень AI (ARC-AGI-X): вплив на ринок криптовалют незначний

robot
Генерація анотацій у процесі

Заголовок

Вчений Уортонської школи бізнесу Ітан Моллік запропонував “конфіденційний” ARC-AGI-X бенчмарк, щоб справедливіше оцінити AI моделі

Резюме

Ітан Моллік (доцент Уортонської школи, автор “Co-Intelligence”, учасник TIME100 AI 2024) висловив ідею бенчмарку “ARC-AGI-X” у соціальних мережах: довірити тестування надійним третім сторонам, питання та типи завдань не публікувати, рейтинги публікувати, але зміст тестування залишати в секреті, щоб запобігти навчання моделей на спеціально підготовлених тестових завданнях. Його основна ідея полягає в тому, що, покращуючи методи оцінювання, дійсно вимірюється прогрес у загальному інтелекті, а не продовжується винагорода за масштабування та “задоволення відповідей”.

Аналіз

Існуючий ARC-AGI бенчмарк був запропонований Франсуа Шолетом у 2019 році, використовуючи новаторські тестування “гнучкого інтелекту” з сітковими головоломками. Людська точність перевищує 85%, тоді як AI системи (навіть до ARC-AGI-3 у 2026 році) все ще нижчі за 50%. Причини розриву:

  • Публічна база питань призводить до перенавчання, моделі “прокручують питання”, а не навчаються
  • Залежність від неефективного перебору, а не ефективного міркування

Ідея Молліка полягає в використанні “конфіденційної бази питань + зовнішньої експертної перевірки”, щоб запобігти “навчанню на точках тестування”, примушуючи моделі дійсно прогресувати в міркуванні та узагальненні. Це стосується давньої проблеми: публічна база питань змушує моделі “здаватися сильнішими”, але не обов’язково має справжніми перенесеними здібностями.

Результати ARC Prize 2025 також це підтверджують:

  • Завдяки посиленню циклів міркування та адаптації під час тестування, бали зросли
  • Але ефективність все ще значно нижча, ніж у людей
  • Отже, бенчмарк повинен більше зосереджуватися на “ефективності навчання та узагальненні”, а не на “пам’яті та вигодах від доопрацювання”

Можливі наслідки:

  • Дизайн експериментів: Може спонукати лабораторії, такі як OpenAI, Anthropic, змінити методи оцінювання, зменшивши простий “підйом рейтингів”
  • Змагання та відкритий код: Якщо механізм конфіденційності буде визнано, це може підвищити порівняльну ефективність відкритого екосистеми, зменшивши оманливу спекуляцію про етапи AGI
  • Комунікація в галузі: Моллік постійно будує мости між академічними колами та промисловістю, просуваючи “фактично придатні рамки оцінювання” до основних дискусій

Ключова інформація:

  • Основне судження: Існуючі публічні бенчмарки мають проблеми з перенавчанням та “підйомом балів”, що серйозно спотворює оцінку реальних міркувальних здібностей моделей; конфіденційні оцінювання можуть в цьому допомогти
  • Ринкові зв’язки: Нещодавній вплив на ціноутворення криптоактивів та торгівельні настрої слабкий, обговорення зосереджене на методах оцінювання AI
  • Пункти спостереження: Якщо в подальшому крипто AI сектор почне використовувати термін “конфіденційний бенчмарк/рейтинги”, це може викликати короткочасну увагу

Оцінка впливу

  • Важливість: Висока (впливає на методи оцінювання AI та галузеву дискусію)
  • Категорія: Технічні інсайти, дослідження AI, галузеві тенденції

Висновок: Для крипто-трейдерів та короткострокових інвесторів це питання наразі не актуально; справжніми вигодами є дослідники, які зосереджені на оцінюванні AI та перевірці здібностей моделей. Якщо ви активний трейдер на крипто-ринку, зараз немає потреби діяти; довгострокові інвестори можуть пасивно стежити, поки не з’являться сигнали про те, що “вплив механізму оцінювання AI на крипто AI сектор”.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити