MIT研究揭示大型语言模型扩展性能的机制，首次实验验证“强叠加”现象：同一维度叠存多概念，叠加噪声导致错误。以Anthropic简化模型及开源模型验证：宽度翻倍，错误减半，缩放指数约0.91。研究回答两问：扩展将于宽度达到词汇表大小时停止；自然语言任务中词频分布限制扩展空间，但鼓励叠加的架构可在同等规模下实现更好性能。

MeNews

2026-05-03 13:01:58

Генерация тезисов в процессе

AIMPACT сообщение, 3 мая (UTC+8), исследователи MIT раскрыли механизм надежного масштабирования производительности больших языковых моделей с увеличением масштаба, впервые предоставив экспериментальное подтверждение явления “наложения”. Исследование показало, что LLM обходят ограничение по размерности, храня несколько концепций в одной и той же размерности, что называется “сильным наложением”, позволяющим модели одновременно представлять все концепции, а ошибки возникают из-за шума, порожденного перекрытием. Команда использовала упрощенную модель Anthropic и открытые модели OPT, GPT-2, Qwen2.5, Pythia для проверки: удвоение ширины модели примерно вдвое уменьшает ошибки вдвое, показатель масштабирования достигает 0.91, что близко к теоретическому значению 1. Исследование ответило на два ключевых вопроса: масштабирование прекратится, когда ширина модели достигнет размера словаря; для задач на естественном языке равномерное распределение частот слов ограничивает ускорение пространства, но архитектурные решения, поощряющие наложение, могут обеспечить лучшую производительность при том же масштабе.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
558.13K Популярность
#
USSeeksStrategicBitcoinReserve
58.77M Популярность
#
IsraelStrikesIranBTCPlunges
39.77K Популярность
#
BitcoinETFOptionLimitQuadruples
1.03M Популярность
#
#FedHoldsRateButDividesDeepen
43.95K Популярность

Закрепить

Карта сайта

Исследователи MIT раскрывают механизм сильного наложения LLM: удвоение ширины примерно вдвое уменьшает ошибку

Популярные темы

WCTCTradingKingPK

USSeeksStrategicBitcoinReserve

IsraelStrikesIranBTCPlunges

BitcoinETFOptionLimitQuadruples

#FedHoldsRateButDividesDeepen

Закрепить