GPT-5.5 '9,7Т параметр' переоцінено: переглянуто до приблизно 1,5Т

Згідно з моніторингом від Beating, дослідники штучного інтелекту Лоренс Чан і Бенно Стурджен опублікували огляд статті головного наукового співробітника Pine AI Лі Боціє під назвою «Непрохідні дослідження знань: оцінка кількості параметрів чорних ящиків великих мовних моделей на основі їхньої здатності до фактів». Оригінальна стаття оцінювала GPT-5.5 приблизно у 9,7 трильйонів, Claude Opus — близько 4,0 трильйонів, а o1 — приблизно 3,5 трильйонів, використовуючи 1400 питань з тривіальними фактами для «ваги» закритих моделей. Рецензенти вважають, що хоча сам підхід є цінним, початкові цифри були значно завищені через критерії оцінювання та якість питань. Основна проблема полягає у «підлозі балу». Оригінальна стаття розділила питання на сім рівнів складності, і коли модель відповідала занадто багато неправильно на певному рівні, бал міг теоретично стати негативним; однак код фактично повертав мінімальний бал для кожного рівня до 0. Це завищувало різницю у продуктивності сучасних моделей на складних питаннях і додатково збільшувало оцінений кількість параметрів. У статті стверджувалося, що цього не робили, але код і опубліковані результати використовували цей підхід. Після видалення «підлоги балу» нахил підгонки зменшився з 6,79 до 3,56. Цей нахил можна зрозуміти як «на кожен приріст у балу, скільки зростає кількість параметрів»; менший нахил означає, що однаковий різниця у балу тепер не відповідає такій екзагерованій різниці у кількості параметрів. Значення R² знизилося з 0,917 до 0,815, що свідчить про те, що крива підгонки «бал — кількість параметрів» стала менш стабільною, ніж у початковій статті. Інтервал прогнозу на 90% розширився з 3,0 до 5,7 разів, що свідчить про ширший діапазон похибки і те, що односторонні цифри не слід сприймати серйозно. У огляді також зазначалося, що 131 з 1400 питань мали неоднозначності або неправильні відповіді, що становить 9,4%. Проблеми переважно концентрувалися у складних питаннях, які використовувалися для розрізнення передових закритих моделей, таких як GPT-5.5 і Claude Opus 4.7. За їхніми оновленими критеріями, GPT-5.5 зменшилася з 9659B до 1458B, з 90% інтервалом прогнозу від 256B до 8311B; Claude Opus 4.7 — з 4042B до 1132B; а GPT-5 — з 4088B до 1330B. Рецензенти також підкреслили, що 1,5Т не слід вважати справжньою кількістю параметрів для GPT-5.5. Більш точним висновком є те, що цей «метод зважування тривіальних фактів» дуже чутливий до деталей оцінювання та якості питань, і цифри на кшталт 9,7Т не можна безпосередньо використовувати як міру ваги для закритих моделей.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити