黄仁勋 deklarasikan era inferensi telah tiba, apa variabel baru yang akan dibawa oleh LPU?

Question

Pada tanggal 16 Maret waktu setempat, CEO NVIDIA Huang Renxun meluncurkan platform komputasi baru yang sepenuhnya didesain untuk AI para agen dalam acara GTC—NVIDIA Vera Rubin.

Platform ini seperti satu set “peralatan komputasi” super, yang menghimpun berbagai komponen inti, termasuk Vera CPU (central processing unit), Rubin GPU (graphics processing unit), switch NVLink 6, ConnectX-9 SuperNIC (kartu jaringan super), BlueField-4 DPU (data processing unit), serta Spectrum-6 (ethernet switch), dan juga Groq 3 LPU baru (language processing unit).

Secara sederhana, ini adalah satu rangkaian kombinasi perangkat keras lengkap yang khusus untuk AI, sehingga komputasi menjadi lebih cepat dan lebih cerdas.

Di antaranya, NVIDIA juga meluncurkan rak Groq 3 LPX yang dirancang khusus untuk deployment skala besar. Ini berarti ia dapat menggabungkan ratusan LPU untuk bekerja secara kolaboratif seperti satu “otak super”, guna mewujudkan kecepatan inferensi yang sangat cepat dan kemampuan pemrosesan teks berjumlah sangat besar. Rak ini memuat 256 LPU, dilengkapi penyimpanan berkecepatan tinggi on-chip sebesar 128GB, dengan kecepatan transfer mencapai 640 TB/s.

Menurut para pelaku industri, sorotan dari peluncuran kali ini bukan hanya peningkatan chip, melainkan lompatan pada kepadatan integrasi sistem. Zhuang Changlei, Direktur Grup AI/Manufaktur Cerdas di Yunxiu Capital, saat diwawancarai oleh reporter 21st Century Business Herald, mengatakan, “Perubahan terbesar adalah NVIDIA secara resmi menaikkan LPU dari chip tunggal atau kartu akselerator menjadi sistem rak tingkat pertama yang sejajar dengan GPU.”

Khususnya, jumlah LPU pada rak LPX meningkat dari 64 unit pada generasi pertama menjadi 256 unit dalam satu lompatan. Lonjakan kepadatan ini jauh melampaui ekspektasi industri, sekaligus mencerminkan kebutuhan pasar yang mendesak akan inferensi teks panjang dengan ultra-rendah latensi.

Zhuang Changlei menilai, ini menandai bahwa komputasi AI tengah beralih dari “pelatihan sebagai fokus utama” menuju “pelatihan + inferensi secara bersamaan”, sementara inferensi sedang menjadi infrastruktur dasar tingkat sistem yang baru.

Fokusnya untuk inferensi

LPU adalah arsitektur chip baru yang didesain untuk tugas berintensitas komputasi yang bersifat pemrosesan berurutan; tujuan utamanya adalah mengoptimalkan efisiensi inferensi model bahasa melalui inovasi arsitektur.

Dari sisi arsitektur, satu Groq 3 LPU tunggal mengintegrasikan SRAM sebesar 500 MB: salah satu elemen inti LPU adalah blok MEM, yaitu arsitektur memori yang datar dan mengutamakan SRAM. SRAM on-chip berkecepatan tinggi sebesar 500 MB ini menjadi penyimpanan kerja utama untuk inferensi.

(Sumber gambar: situs resmi NVIDIA)

Kompiler dan runtime menempatkan working set aktif (termasuk bobot, aktivasi, dan status KV) ke memori on-chip serta memindahkan data secara eksplisit, bukan mengandalkan cache yang dikelola perangkat keras. Ini mengurangi latensi yang tidak dapat diprediksi, dan membantu memberikan latensi yang rendah serta stabil dengan menempatkan data yang paling sensitif terhadap latensi sedekat mungkin dengan lokasi komputasi.

Zhuang Changlei mengatakan kepada reporter bahwa keunggulan inti Groq LPU bukan hanya “lebih cepat”, melainkan latensi yang deterministik—“setiap kali sama cepatnya”. Desain arsitektur dengan determinisme waktu (Timing Deterministic) ini memerlukan penyesuaian mendalam pada pipeline komputasi, akses memori, dan kompiler; ambang teknologinya sangat tinggi.

Untuk skenario seperti kontrol industri dan mengemudi otonom yang memiliki persyaratan keras terhadap real-time, “determinisme” ini adalah kebutuhan mutlak (just need). Sementara itu, arsitektur GPU umum dan ASIC yang dirancang oleh penyedia layanan cloud berbasis instruction set yang disederhanakan, sulit untuk mencapai tingkat determinisme yang sedekat ini sambil tetap menjaga fleksibilitas.

Huatai Securities dalam risetnya menyebutkan bahwa dibanding CES di bulan Januari, pada GTC kali ini posisi Groq LPU dalam lini produk keseluruhan NVIDIA mulai menjadi jelas. NVIDIA berencana memanfaatkan karakteristik latensi rendah LPU untuk memenuhi kebutuhan aplikasi yang memiliki persyaratan tinggi akan interaktivitas seperti Agent AI.

Zhuang Changlei juga menekankan bahwa ketika bottleneck latensi perangkat keras dipecahkan, para perancang model akan semakin yakin untuk mengeksplorasi AI interaktif yang lebih real-time dan lebih kompleks. Misalnya, saat ini Agent AI mungkin masih memerlukan waktu berpikir beberapa detik; ke depan, ia mungkin benar-benar mencapai respons tingkat milidetik. Model tidak lagi “sekadar melempar kata”, melainkan akan berbincang denganmu secara lancar dan real-time seperti manusia sungguhan.

Tahun perdana fotonik silikon dimulai

Di luar rak NVIDIA Groq 3 LPX, sorotan besar lainnya dari platform Rubin adalah rak ethernet NVIDIA Spectrum-6 SPX.

Dengan teknologi silikon fotonik Ethernet Spectrum-X yang menggunakan packaging terpadu optik-elektrik (CPO), dibanding transceiver plug-in tradisional, efisiensi energi optik meningkat hingga 5 kali, dan keandalan sistem meningkat 10 kali.

“Scale-Out (interkoneksi antar rack) adalah tambahan yang paling jelas saat ini.” Zhuang Changlei mengatakan bahwa platform Rubin sudah mulai mengadopsi switch CPO untuk mengatasi masalah banjir transmisi data di antara banyak rack di dalam pusat data. Diperkirakan pada tahun 2027, CPO akan menjadi titik waktu penting ketika CPO mulai diproduksi dalam volume besar.

Di GTC, NVIDIA juga mengungkapkan bahwa setelah Vera Rubin, arsitektur penting generasi berikutnya dari NVIDIA adalah Feynman; arsitektur ini akan mencakup sebuah CPU baru: NVIDIA Rosa.

Di antaranya, Rosa adalah inti dari platform baru. Platform ini menggabungkan LPU generasi baru NVIDIA LP40 dengan NVIDIA BlueField-5 dan CX10, serta melakukan ekspansi vertikal packaging optik-elektrik terpadu dari kabel tembaga, melalui NVIDIA Kyber, dan melakukan ekspansi horizontal optik kelas Spectrum melalui NVIDIA Spectrum.

“Scale-Up (di dalam rack/antar chip) adalah highlight yang lebih visioner.” Zhuang Changlei mengatakan bahwa dalam arsitektur Feynman, NVIDIA berencana memperkenalkan NVLink 8 CPO untuk mewujudkan “cahaya masuk ke rack”, yaitu menggunakan interkoneksi optik sebagai pengganti sebagian koneksi backplane tembaga tradisional, sehingga langsung menghubungkan GPU dengan LPU. Ini berarti interkoneksi optik tengah bergerak dari switch di tepi paling luar menuju bagian dalam core rack komputasi secara bertahap.

Menurut Zhuang Changlei, modul optik sebagai “pembuluh darah” untuk interkoneksi komputasi, nilai ekonominya terus meningkat seiring ekspansi skala klaster agen cerdas. Ketika CPO berpindah dari tahap laboratorium menuju penggunaan komersial skala besar, tahun perdana fotonik silikon sudah dimulai; hal ini akan langsung mendorong peningkatan pada seluruh rantai industri perangkat keras komunikasi.

Kebutuhan PCB berlevel tinggi mungkin meledak

Seperti disebutkan sebelumnya, untuk memenuhi kebutuhan sistem agen akan latensi rendah dan konteks panjang, NVIDIA juga meluncurkan rak akselerasi inferensi Groq 3 LPX, yang mencakup 256 prosesor LPU. Setelah digabungkan dengan Vera Rubin, throughput inferensi per megawatt dapat meningkat 35 kali.

Sementara itu, pengiriman LPU/LPX dalam bentuk rack akan berdampak disruptif pada industri PCB, dan mungkin merupakan bagian paling di luar ekspektasi dalam rantai industri tersebut.

PCB, yaitu printed circuit board (papan sirkuit tercetak), adalah media yang menghubungkan secara elektrik antar komponen elektronik; PCB telah merasuk ke hampir semua perangkat elektronik. Industri PCB Tiongkok sebagai mesin inti manufaktur elektronik global bertumbuh dengan kuat.

Berdaya berkat keunggulan manajemen biaya, standar ramah lingkungan, serta dukungan rantai industri, saat ini nilai output industri PCB di Tiongkok Daratan lebih dari 50% dari global, dan telah membentuk klaster industri seperti Teluk Bohai, Delta Sungai Mutiara, dan Delta Sungai Yangtze.

Dari sisi hulu-hilir, seiring lonjakan permintaan AI, belanja modal penyedia layanan cloud terus dinaikkan, yang mendorong pembelian server AI, perangkat penyimpanan, serta perangkat jaringan. CNI Securities (601066) memperkirakan, pada tahun 2025, pasar server GPU+ASIC yang terkait dengan PCB bernilai lebih dari 40 miliar; pada tahun 2026 nilainya lebih dari 90 miliar. Tingkat pertumbuhannya sudah menjadi dua kali lipat.

“Saat ini, industri PCB server AI global berada pada kondisi kesenjangan pasokan-permintaan sekitar 20%.” kata Zhuang Changlei terus terang.

Menurut Zhuang Changlei, ketika rak LPU/LPX memasuki puncak produksi massal pada akhir 2026 hingga 2027, kebutuhan akan PCB berlevel tinggi akan menunjukkan tren meledak. “Ini akan semakin memperparah kekurangan pasokan PCB HDI berlevel tinggi dan PCB dengan jumlah lapisan yang lebih banyak, sehingga mendorong seluruh rantai industri PCB masuk ke putaran ekspansi kapasitas dan upgrade yang baru.”

Sebagai contoh, karena rak LPU/LPX harus menangani throughput data dalam jumlah sangat besar dan komunikasi dengan latensi ultra-rendah di dalamnya, persyaratan untuk jumlah lapisan, material, dan proses PCB sangat tinggi. Sebagai contoh rak LPU NVIDIA, nilai ekonomis PCB pada satu papan utama dapat mencapai 6000 dolar AS; sementara nilai total PCB untuk satu rak lengkap mencapai 96k dolar AS (setara dengan hampir 700k yuan RMB). Ini meningkatkan nilai ekonomis lebih dari 10 kali dibanding PCB server AI tradisional.

Selain itu, untuk mendukung transmisi sinyal berkecepatan tinggi 224Gbps dan di atasnya, serta mendukung interkoneksi berkecepatan tinggi untuk 256 LPU, PCB harus memakai substrat dan desain yang lebih canggih. Dari sisi material, substrat biasa tidak lagi dapat memenuhi kebutuhan; harus ditingkatkan ke copper-clad board level M9. Material yang ditingkatkan juga berubah dari woven fiberglass elektronik biasa menjadi kain Q-glass dengan nilai yang 10 kali lipat. Produk generasi berikutnya bahkan sudah mulai melakukan pengujian material M10.

Zhuang Changlei mengatakan, pada arsitektur Rubin Ultra, bahkan diperkenalkan pula skema orthogonal backplane. Dengan 78 lapisan PCB, GPU dapat dihubungkan langsung ke NVSwitch, sehingga penggunaan kabel tembaga sangat berkurang. Ini menandai bahwa PCB sedang menggantikan sebagian peran kabel tradisional, menjadi “rangka” untuk interkoneksi di dalam rack.

黄仁勋 deklarasikan era inferensi telah tiba, apa variabel baru yang akan dibawa oleh LPU?

Topik Trending

GateSquareAprilPostingChallenge

WeekendCryptoHoldingGuide

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Hot Gate Fun

币安女王

币安女王

WTR

WinterCoin

NPL

NEPAL INU

GJWL

干就完了

666

2026

Sematkan