MetaなどがBLT加速手法を導入、メモリ帯域幅を最大92%削減

AIMPACT メッセージ、5 月 12 日(UTC+8)、Meta、スタンフォード大学、ワシントン大学の研究チームは最近、3つの新しい方法を発表し、Byte Latent Transformer(BLT)の推論速度を大幅に加速させました。BLTは、原始バイト上で直接動作する言語モデルであり、エントロピーに基づく分割戦略を通じてバイトを動的に長さの異なるパッチにグループ化し、トークン化モデルの性能に一致させます。逐字自回帰デコードには複数回の前方伝播が必要なため、メモリ帯域幅が主なボトルネックとなっています。
3つの高速化手法は以下の通りです:
BLT-Dはブロック離散拡散を採用し、次バイト予測とマスクバイト予測の損失を組み合わせて訓練し、1回の前方伝播で複数バイトを生成します。ブロックサイズが4の場合、メモリ帯域幅はBLTの半分に不足し、ブロックサイズが16の場合は87-92%低下します。
BLT-Sは軽量なローカルデコーダを投機的ドラフトとして利用し、追加の訓練を必要とせず、貪欲デコード下で標準のBLTと完全に一致する出力を生成し、77%のメモリ帯域幅削減を実現します。
BLT-DVは拡散ドラフトと自回帰検証を組み合わせており、同じモデルの重みを双方向に使用でき、メモリ帯域幅を81%削減します。
これらの方法は翻訳タスクで最も効果的であり、エンコーディングタスクはブロックサイズに敏感です。
ARC-Easy、ARC-Challenge、PIQA、HellaSwag、MMLUなどの可能性に基づくベンチマークテストでは、BLT-DのスコアはBLTのベースラインに近く、推論能力は堅実に維持されています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし