Згідно з моніторингом Beating, дослідники штучного інтелекту Лоренс Чан і Бенно Стурджен опублікували огляд статті головного наукового співробітника Pine AI Лі Боджея під назвою «Непроникні дослідження знань: оцінка кількості параметрів чорних ящиків великих мовних моделей на основі здатності до фактів».

AirdropBlackHole

2026-05-02 14:52:03

Згідно з моніторингом від Beating, дослідники штучного інтелекту Лоренс Чан і Бенно Стурджен опублікували огляд статті головного наукового співробітника Pine AI Лі Боціє під назвою «Непрохідні дослідження знань: оцінка кількості параметрів чорних ящиків великих мовних моделей на основі їхньої здатності до фактів». Оригінальна стаття оцінювала GPT-5.5 приблизно у 9,7 трильйонів, Claude Opus — близько 4,0 трильйонів, а o1 — приблизно 3,5 трильйонів, використовуючи 1400 питань з тривіальними фактами для «ваги» закритих моделей. Рецензенти вважають, що хоча сам підхід є цінним, початкові цифри були значно завищені через критерії оцінювання та якість питань. Основна проблема полягає у «підлозі балу». Оригінальна стаття розділила питання на сім рівнів складності, і коли модель відповідала занадто багато неправильно на певному рівні, бал міг теоретично стати негативним; однак код фактично повертав мінімальний бал для кожного рівня до 0. Це завищувало різницю у продуктивності сучасних моделей на складних питаннях і додатково збільшувало оцінений кількість параметрів. У статті стверджувалося, що цього не робили, але код і опубліковані результати використовували цей підхід. Після видалення «підлоги балу» нахил підгонки зменшився з 6,79 до 3,56. Цей нахил можна зрозуміти як «на кожен приріст у балу, скільки зростає кількість параметрів»; менший нахил означає, що однаковий різниця у балу тепер не відповідає такій екзагерованій різниці у кількості параметрів. Значення R² знизилося з 0,917 до 0,815, що свідчить про те, що крива підгонки «бал — кількість параметрів» стала менш стабільною, ніж у початковій статті. Інтервал прогнозу на 90% розширився з 3,0 до 5,7 разів, що свідчить про ширший діапазон похибки і те, що односторонні цифри не слід сприймати серйозно. У огляді також зазначалося, що 131 з 1400 питань мали неоднозначності або неправильні відповіді, що становить 9,4%. Проблеми переважно концентрувалися у складних питаннях, які використовувалися для розрізнення передових закритих моделей, таких як GPT-5.5 і Claude Opus 4.7. За їхніми оновленими критеріями, GPT-5.5 зменшилася з 9659B до 1458B, з 90% інтервалом прогнозу від 256B до 8311B; Claude Opus 4.7 — з 4042B до 1132B; а GPT-5 — з 4088B до 1330B. Рецензенти також підкреслили, що 1,5Т не слід вважати справжньою кількістю параметрів для GPT-5.5. Більш точним висновком є те, що цей «метод зважування тривіальних фактів» дуже чутливий до деталей оцінювання та якості питань, і цифри на кшталт 9,7Т не можна безпосередньо використовувати як міру ваги для закритих моделей.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
516.24K Популярність
#
USSeeksStrategicBitcoinReserve
58.74M Популярність
#
IsraelStrikesIranBTCPlunges
38.82K Популярність
#
BitcoinETFOptionLimitQuadruples
1.01M Популярність
#
#FedHoldsRateButDividesDeepen
41.59K Популярність

Закріпити

карта сайту

GPT-5.5 '9,7Т параметр' переоцінено: переглянуто до приблизно 1,5Т

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити