Вчені MIT розкривають механізм сильного накладання LLM: подвоєння ширини зменшує помилки приблизно вдвічі

robot
Генерація анотацій у процесі

AIMPACT повідомлення, 3 травня (UTC+8), дослідники MIT розкрили механізм надійного масштабування продуктивності великих мовних моделей у залежності від масштабу, вперше надаючи експериментальне підтвердження явища “накладання”. Дослідження виявило, що LLM обходять обмеження розмірності, зберігаючи кілька концепцій у одному й тому ж вимірі, і це “сильне накладання” дозволяє моделі одночасно представляти всі концепції, а джерело помилок — шум, що виникає через накладання. Команда використовувала спрощену модель Anthropic та відкриті моделі OPT, GPT-2, Qwen2.5, Pythia для перевірки: подвоєння ширини моделі приблизно зменшує кількість помилок удвічі, коефіцієнт масштабування досягає 0.91, що близько до теоретичного значення 1. Дослідження відповідає на два ключові питання: масштабування припиниться, коли ширина моделі співпаде з розміром словника; для завдань природної мови рівномірний розподіл частот слів обмежує швидкість зростання, але архітектурний дизайн, що заохочує накладання, може забезпечити кращу продуктивність при однаковому масштабі.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити