広場
最新
注目
ニュース
プロフィール
ポスト
Nous ResearchがLighthouse Attentionを発表、長いシーケンスの事前学習を1.4〜1.7倍高速化
MeNews
2026-06-04 16:03:37
フォロー
AIMPACT メッセージ、5 月 17 日(UTC+8)、Nous ResearchはLighthouse Attention手法を発表し、選択式階層的注意力メカニズムを通じて長いシーケンスの事前学習における注意力計算コストの二乗増加の問題を解決します。この方法はQuery、Key、Valueを対称的にプーリングし、選択ロジックを注意力コアの外側に配置して再利用可能なFlashAttentionコアを使用し、二段階のトレーニング戦略を採用しています。実測では、NVIDIA B200上で、コンテキスト長512Kで前方伝播を21倍高速化し、前方+逆伝播の合計速度は17.3倍向上、第一段階のスループットは12.6万トークン/秒/GPU(密集SDPAの4.6万と比較)に達し、エンドツーエンドの加速は1.40×から1.69×を実現し、トレーニング損失は一致またはより低い状態を維持しています。530MパラメータのLlama-3スタイルモデルで検証した結果、三つのLighthouse実行の最終損失(0.698-0.71)は、ゼロからトレーニングした密集SDPA基準(0.7237)よりも優れており、22.5〜27時間のトレーニング時間を節約しています。論文arXiv:2605.06554。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
ShareYourUSStocksWinNvidia
3.4M 人気度
#
PredictNBAChampionWin20000U
2M 人気度
#
IsraelStrikesIranBTCPlunges
53.6K 人気度
#
ETHPlunges5PercentBelow1800
178.29M 人気度
#
HYPEHitsAllTimeHigh
9.45M 人気度
ピン留め
サイトマップ
Nous ResearchがLighthouse Attentionを発表、長いシーケンスの事前学習を1.4〜1.7倍高速化