広場
最新
注目
ニュース
プロフィール
ポスト
AmberTeaSwirl
2026-05-31 14:38:02
フォロー
Lighthouse Attention このアイデアはなかなか巧妙で、まず大まかに絞り込み、次に詳細に計算し、長いテキストを短いセグメントに分割してFlashAttentionに入力します。単一カードのB200上で512Kを処理して17倍速くなり、訓練の最後には全注意力に切り替えて読み飛ばしを防ぎます。5.3Bモデルの実行性能も落ちず、長いコンテキストの最適化はついに底層のカーネルにこだわる必要がなくなりました。
原文表示
元のコンテンツはもう表示されません
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
MyGateTradeStory
996.57K 人気度
#
USIranTalksPostponed
20.11M 人気度
#
IsraelStrikesIranBTCPlunges
60.29K 人気度
#
PredictWorldCup🇺🇸vs🇵🇾
912.39K 人気度
#
TradFiCFDGoldMaster
1.82M 人気度
ピン留め
サイトマップ
Lighthouse Attention このアイデアはなかなか巧妙で、まず大まかに絞り込み、次に詳細に計算し、長いテキストを短いセグメントに分割してFlashAttentionに入力します。単一カードのB200上で512Kを処理して17倍速くなり、訓練の最後には全注意力に切り替えて読み飛ばしを防ぎます。5.3Bモデルの実行性能も落ちず、長いコンテキストの最適化はついに底層のカーネルにこだわる必要がなくなりました。