幣界網メッセージ、GoogleはPixel 9およびPixel 10シリーズデバイスにマルチトークン予測(MTP)アーキテクチャを導入し、内蔵のGemini Nano v3モデルを直接高速化しました。新しいアーキテクチャでは、軽量なトランスフォーマー予測ヘッドを凍結済みのメインモデルの末尾に追加することで、デバイス上での推論速度を50%以上向上させると同時に、元の安全なアライメントと出力品質を維持しています。自己回帰生成時におけるドラフト計算の重複による実行時メモリのオーバーヘッドを避けるため、Googleはゼロコピー機構を設計し、メインモデルがすでに計算した特徴活性化を再利用することに成功し、候補トークンの予測精度を大幅に向上させました。このアーキテクチャにより、実際の業務においてモデルは1回の推論で平均して約2トークン多く予測できるようになり、メインプロセッサが検証のために頻繁に起動される頻度が低下し、システム消費電力が削減されます。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • 2
  • 1
  • 共有
コメント
コメントを追加
コメントを追加
DewdropSapling
· 2時間前
Googleの今回のMTPアーキテクチャは確かにすごいですね。50%の高速化で消費電力も削減、モバイルAIが大きく変わろうとしています。
原文表示返信0
AirdropCartographer
· 2時間前
ゼロコピー機構の設計は巧妙で、特徴アクティベーションを再利用してメモリ爆発を回避し、エンジニアリングの細部がしっかりしている。
原文表示返信0