Hugging Faceが正式にKernelsをリリース、GPU演算子をモデルのように一行のコードで簡単に設定できる

robot
概要作成中

MEニュース、4月15日(UTC+8)、1M AI Newsの監視によると、Hugging FaceのCEO Clem DelangueはKernelsの正式リリースをHubで発表しました。GPUオペレーターは、グラフィックカードの性能を最大限に引き出すための低レベル最適化コードであり、推論とトレーニングを1.7倍から2.5倍高速化できますが、インストールは常に苦難の道でした。最も一般的なFlashAttentionを例にとると、ローカルでのコンパイルには約96GBのメモリと数時間を要し、PyTorchバージョンやCUDAバージョンのわずかな違いでエラーが出るため、多くの開発者はこの段階でつまずいていました。Kernels Hubはコンパイルをクラウドに移行します。Hugging FaceはさまざまなGPUとシステム環境で事前にオペレーターをコンパイルしておき、開発者は一行のコードを書くだけで、Hubがハードウェア環境に自動的に適合し、数秒以内に事前コンパイル済みのファイルをダウンロードして直接使用できるようになっています。同じプロセス内で複数の異なるバージョンのオペレーターをロードでき、torch.compileとも互換性があります。Kernelsは昨年6月にテスト運用を開始し、今月、Models、Datasets、Spacesと並ぶHubの主要リポジトリタイプにアップグレードされました。現在、61個の事前コンパイル済みオペレーターがあり、注意力メカニズム、正規化、ハイブリッドエキスパートルーティング、量子化などの一般的なシナリオをカバーし、NVIDIA CUDA、AMD ROCm、Apple Metal、Intel XPUの4つのハードウェアアクセラレーションプラットフォームをサポートしています。これらはすでにHugging Faceの推論フレームワークTGIやTransformersライブラリに統合されています。(出典:BlockBeats)

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
コメントを追加
コメントを追加
コメントなし