Google PixelがゼロコピーMTPを導入、Gemini Nanoの推論速度が50%以上向上しメモリ節約

robot
概要作成中
動察 Beatingのモニタリングによると、GoogleはPixel 9およびPixel 10シリーズデバイスにマルチトークン予測(MTP)アーキテクチャを導入し、内蔵のGemini Nano v3モデルを直接高速化した。軽量Transformer予測ヘッドを凍結済みのメインモデルの末尾に追加することで、元の安全性アライメントと出力品質を完全に維持しながら、デバイス上の推論速度を50%以上向上させた。
従来の投機的デコードでは、独立した下書きモデルを実行して候補トークンを予測する必要があった。これによりスマートフォンの動作メモリが余分に消費され、さらに独立モデルはメインモデルの内部隠れ状態にアクセスできないため、予測精度が制限されていた。新アーキテクチャでは、凍結されたメインモデルの末尾にMTPヘッドを埋め込むことで、メインモデルの計算済み特徴活性を再利用し、候補トークンの予測精度を大幅に向上させた。
自己回帰生成中に下書き計算が重複する動作メモリオーバーヘッドを発生させないために、Googleはゼロコピー(zero-copy)機構を設計した。従来の方式では、下書きモデルが候補トークンを生成する際に独立したキーバリューキャッシュ(KV cache)を保持する必要があったが、ゼロコピー機構により外部予測ヘッドはクロスアテンション(Cross-Attention)を用いてメインモデルの既存キャッシュを直接読み取ることができる。これにより下書き予測の起動遅延が解消され、スマートフォンの動作メモリを約130MB節約できる。
通知要約やテキスト校正などのPixelの実業務において、MTPアーキテクチャによりモデルは1回の推論で平均約2トークン多く予測できるようになり、メインプロセッサが検証のために頻繁に起動される頻度が低下し、システムの消費電力が削減された。スマート返信などの高度に構造化されたテキスト生成タスクでは、トークン受理率が55%向上した。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし