AIMPACT повідомлення, 3 травня (UTC+8), дослідники MIT розкрили механізм надійного масштабування продуктивності великих мовних моделей у залежності від масштабу, вперше надаючи експериментальне підтвердження явища “накладання”. Дослідження виявило, що LLM обходять обмеження розмірності, зберігаючи кілька концепцій у одному й тому ж вимірі, і це “сильне накладання” дозволяє моделі одночасно представляти всі концепції, а джерело помилок — шум, що виникає через накладання. Команда використовувала спрощену модель Anthropic та відкриті моделі OPT, GPT-2, Qwen2.5, Pythia для перевірки: подвоєння ширини моделі приблизно зменшує кількість помилок удвічі, коефіцієнт масштабування досягає 0.91, що близько до теоретичного значення 1. Дослідження відповідає на два ключові питання: масштабування припиниться, коли ширина моделі співпаде з розміром словника; для завдань природної мови рівномірний розподіл частот слів обмежує швидкість зростання, але архітектурний дизайн, що заохочує накладання, може забезпечити кращу продуктивність при однаковому масштабі.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WCTCTradingKingPK
562.52K Популярність
#
USSeeksStrategicBitcoinReserve
58.77M Популярність
#
IsraelStrikesIranBTCPlunges
40.48K Популярність
#
BitcoinETFOptionLimitQuadruples
1.03M Популярність
#
#FedHoldsRateButDividesDeepen
44.03K Популярність

Закріпити

карта сайту

Вчені MIT розкривають механізм сильного накладання LLM: подвоєння ширини зменшує помилки приблизно вдвічі

Популярні теми

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закріпити