Google merilis Panduan Pelatihan Pengembang TPU Ironwood Generasi Ketujuh, menjelaskan secara rinci optimisasi kinerja tingkat sistem

MeNews · 2026-04-01T22:03:18+00:00

Google merilis panduan pelatihan pengembang untuk TPU Ironwood generasi ketujuh, bertujuan membantu pengembang melatih dan mengimplementasikan model AI secara efisien. Panduan ini memperkenalkan berbagai strategi optimisasi utama, seperti pelatihan FP8, pustaka inti JAX yang dioptimalkan untuk TPU, komunikasi pemuatan inti jarang, penyesuaian alokasi memori, dan lain-lain, untuk meningkatkan kinerja sistem TPU Ironwood.

MeNews

2026-04-01 22:03:18

Pembuatan abstrak sedang berlangsung

Berita ME: Pada tanggal 2 April (UTC+8), Google secara resmi baru-baru ini merilis panduan pelatihan untuk pengembang yang ditujukan bagi generasi ketujuh Ironwood TPU. Panduan ini bertujuan untuk membantu pengembang memanfaatkan sepenuhnya performa tingkat sistem dari Ironwood TPU, agar pelatihan dan penerapan model AI generasi terbaru dapat dilakukan secara efisien. Ironwood TPU adalah infrastruktur AI khusus yang dirancang untuk memenuhi kebutuhan komputasi model ber-skala triliun parameter; infrastruktur ini membangun sistem lengkap yang mendukung hingga 9.216 chip melalui teknologi seperti interkoneksi antar-chip (ICI), optical circuit switch (OCS), jaringan pusat data (DCN), serta memori bandwidth tinggi teragregasi (HBM). Artikel tersebut menjelaskan secara rinci sejumlah strategi optimasi kunci untuk perangkat keras ini, termasuk: memanfaatkan dukungan bawaan unit perkalian matriks (MXU) untuk pelatihan FP8 guna meningkatkan throughput; menggunakan pustaka kernel JAX yang dioptimalkan khusus untuk TPU, Tokamax, melalui “flash attention” dan “Megablox grouped matrix multiplication” untuk menangani tensor tak beraturan pada konteks panjang dan model mixture of experts; memanfaatkan SparseCore generasi keempat untuk mengalihkan operasi komunikasi kolektif guna menyamarkan latensi; penyetelan halus pada alokasi SRAM cepat di chip TPU (VMEM) untuk mengurangi penahanan memori; serta memilih strategi pembagian terbaik (seperti FSDP, TP, EP) berdasarkan ukuran model, arsitektur, dan panjang sekuens. (Sumber: InFoQ)

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka