GPT-5.5 «9,7 трлн параметров» переоценен: пересмотрен до примерно 1,5 трлн

Согласно мониторингу Beating, исследователи ИИ Лоренс Чан и Бенно Стурджен опубликовали обзор статьи главного ученого Pine AI Ли Боцзе под названием «Непроницаемые знания: оценка количества параметров черных ящиков больших языковых моделей на основе емкости фактов». Исходная статья оценивала GPT-5.5 примерно в 9,7 трлн, Claude Opus — около 4,0 трлн, и o1 — примерно в 3,5 трлн, используя 1400 вопросов на эрудицию для «взвешивания» закрытых моделей. Рецензенты считают, что хотя сам подход ценен, исходные цифры были значительно завышены из-за критериев оценки и качества вопросов. Основная проблема заключается в «пороговом балле». В исходной статье вопросы делились на семь уровней сложности, и когда модель отвечала слишком много неправильно на определенном уровне, балл теоретически мог стать отрицательным; однако код фактически возвращал минимальный балл для каждого уровня к 0. Это раздувало разрыв в производительности передовых моделей на сложных вопросах и дополнительно увеличивало предполагаемое количество параметров. В статье утверждалось, что это не было так сделано, однако в коде и опубликованных результатах использовалось именно такое решение. После исключения «порогового балла» наклон аппроксимации снизился с 6,79 до 3,56. Этот наклон можно понять как «на каждое увеличение балла на одну единицу, насколько увеличивается количество параметров»; меньший наклон означает, что одинаковое различие в баллах больше не соответствует столь преувеличенному различию в параметрах. Значение R² снизилось с 0,917 до 0,815, что указывает на то, что кривая «балл — количество параметров» стала менее стабильной, чем в оригинальной статье. Интервал предсказания на 90% расширился с 3,0 до 5,7 раз, что свидетельствует о большем диапазоне ошибок и о том, что одиночные показатели не следует воспринимать всерьез. Обзор также отметил, что 131 из 1400 вопросов содержали двусмысленности или неправильные ответы, что составляет 9,4%. Проблемы в основном сосредоточены в сложных вопросах, которые использовались для различения передовых закрытых моделей, таких как GPT-5.5 и Claude Opus 4.7. Согласно их пересмотренным критериям, GPT-5.5 был снижен с 9659B до 1458B, при 90% интервале предсказания от 256B до 8311B; Claude Opus 4.7 — с 4042B до 1132B; а GPT-5 — с 4088B до 1330B. Рецензенты также подчеркнули, что 1,5 трлн не следует считать истинным количеством параметров GPT-5.5. Более точный вывод — этот «метод взвешивания по эрудиции» очень чувствителен к деталям оценки и качеству вопросов, и такие цифры, как 9,7 трлн, нельзя напрямую использовать в качестве меры веса для закрытых моделей.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить