MIT研究者が明らかにしたLLMの強力な重ね合わせメカニズム:幅を倍にすると誤りが約半減

robot
概要作成中

AIMPACT メッセージ、5 月 3 日(UTC+8)、MITの研究者は大規模言語モデルの性能が規模の拡大に伴ってどのように信頼性を持って拡張されるかのメカニズムを明らかにし、「積み重ね」現象に対して初めて実験的な検証を行った。研究は、LLMが同じ次元に複数の概念を格納することで次元制限を回避していることを発見し、この「強い積み重ね」によりモデルはすべての概念を同時に表現できるが、誤りは重なりから生じるノイズに起因していることを示した。チームはAnthropicの簡略化モデルやOPT、GPT-2、Qwen2.5、Pythiaなどのオープンソースモデルを用いて検証を行い、モデルの幅を倍にすると誤りが約半減し、スケーリング指数は0.91に達し、理論値の1に近づいていることを示した。研究は二つの重要な問いに答えている:スケーリングはモデルの幅が語彙表の大きさに一致するまで止まらないこと;自然言語タスクにおいて、頻度分布の平坦さは空間の制約を加速させるが、積み重ねを促すアーキテクチャ設計は同じ規模でより良い性能を実現できること。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし