Nvidia, Alibaba Menilai Ulang AI, Membuang FLOPS ke "Tempat Sampah"

Pada tanggal 17 Maret, Huang Renxun tampil di panggung GTC 2026 NVIDIA mengenakan jaket kulit ikonik selama lebih dari dua jam. Setelah acara, hampir seluruh jaringan membicarakan “NVIDIA akan menjadi Raja Token”.

Namun, jika mendengarkan dengan seksama pidato tersebut, akan ditemukan bahwa yang benar-benar diulang-ulang oleh Huang Renxun bukanlah Token itu sendiri, melainkan Tokens per Watt (Token per Watt). Saat menampilkan grafik performa inferensi, dia secara tegas menyebutkan konsep ini dan secara langsung menyatakan: setiap pusat data, setiap pabrik AI, pada dasarnya dibatasi oleh listrik. Sebuah pabrik 1GW tidak akan pernah menjadi 2GW, itu adalah hukum fisika yang menentukan. Dalam daya tetap, siapa yang menghasilkan Token per Watt tertinggi, biaya produksinya paling rendah, dan kurva pendapatannya paling curam.

Kalimat ini adalah inti sebenarnya dari seluruh GTC 2026.

Opini publik sangat tertarik membahas seberapa banyak Vera Rubin lebih kuat dibanding Blackwell, Groq LPX mampu meningkatkan kecepatan inferensi hingga 35 kali lipat, dan NVIDIA akan memindahkan pusat data ke luar angkasa. Tentu saja, semua ini penting, tetapi secara esensial merupakan ekspresi berbeda dari satu logika yang sama: di bawah batasan energi, memaksimalkan output kecerdasan per watt listrik.

Ketika Huang Renxun menjadikan “Tokens/W” sebagai ukuran utama output pabrik AI, sebenarnya ada makna industri yang lebih penting di baliknya. Sistem pengukuran kompetisi daya komputasi, sedang beralih dari chip ke sistem, dari parameter puncak ke efisiensi end-to-end, dari siapa chip lebih cepat ke siapa yang dapat mengubah energi menjadi kecerdasan dengan efisiensi lebih tinggi.

Dalam matriks produk dan teknologi saat ini, NVIDIA dan Huang Renxun masih terjebak pada token/w, dan untuk menjadi Raja Token sejati, mereka harus melangkah jauh lagi.

Ini adalah migrasi dari “bahasa pengukuran kecerdasan” yang baru, dan sudut pandang industri yang dibuka oleh migrasi ini jauh lebih berharga untuk didiskusikan daripada sekadar chip baru.

Secara kebetulan, tepat sehari sebelum pembukaan resmi GTC, Alibaba mengumumkan pembentukan Alibaba Token Hub, yang dipimpin langsung oleh Wu Yongming. Inti AI Alibaba bukan lagi dinamai AI, melainkan Token, mengangkat Token ke tingkat strategis AI Alibaba.

Ini juga menunjukkan bahwa melihat AI dari sudut pandang sistem secara bertahap menjadi paradigma baru industri. Inilah juga filosofi yang ingin ditekankan melalui artikel ini, dan makna utama dari tulisan ini.

01 Perubahan paling penting di GTC 2026 bukan pada chip itu sendiri

GTC 2026, fokus perhatian tetap pada Vera Rubin, Rubin POD, LPX, DSX AI Factory dan istilah-istilah baru lainnya. Tetapi jika melihat pengumuman ini secara bersamaan, akan terlihat bahwa narasi kompetisi daya komputasi telah bergeser dari sekadar satu chip ke tingkat infrastruktur daya komputasi secara keseluruhan, yaitu seluruh rangkaian yang terdiri dari komputasi, jaringan, penyimpanan, listrik, pendinginan, sistem kontrol, dan perangkat lunak yang membentuk sebuah AI factory.

Rubin digambarkan sebagai platform POD-scale, di mana beberapa rak digabungkan menjadi sistem besar dan koheren; DSX didefinisikan sebagai desain referensi untuk AI factory, dengan tujuan memaksimalkan Token per Watt.

Ini menunjukkan bahwa kompetisi industri yang sesungguhnya beralih dari seberapa tinggi kekuatan satu chip, menjadi seberapa kuat keseluruhan sistem komputasi. Lebih detail lagi, apakah seluruh sistem mampu mengorganisasi sumber daya listrik, pendinginan, dan jaringan yang terbatas secara efisien menjadi output AI yang stabil.

Dalam satuan pengukuran, ini adalah Token/W.

Artikel ini berharap melalui pengukuran Token/W, dapat memahami makna dari pengumuman ini dan peluang yang dibawanya untuk pengembangan industri infrastruktur AI.

02 Karena kompetisi beralih ke sistem, sistem pengukuran tidak bisa lagi berhenti di level chip

Sistem pengukuran di era chip sudah sangat dikenal. Peak performance Flops, bandwidth memori, FLOPS/W, TOPS/W, bit/J, semua indikator ini penting karena mampu menggambarkan batas kemampuan sebuah komponen.

Namun, ini menyebabkan munculnya kondisi canggung dalam praktik: tidak ada satu pun satuan pengukuran yang objektif, seragam, dan umum digunakan di pusat kecerdasan buatan.

Secara umum, pengukuran pusat data biasanya menggunakan MW sebagai satuan listrik, dan di dalam negeri, saat membangun pusat kecerdasan buatan, digunakan PFlops (berbasis FP16) sebagai satuan kekuatan komputasi. Tetapi, cluster dengan kekuatan dan daya listrik yang sama, jika komponen chip, jaringan, dan pendinginan berbeda, efisiensinya juga akan berbeda jauh.

Alasannya tidak rumit; satuan pengukuran sebelumnya hanya mampu mengukur satu dimensi saja. Peak performance menggambarkan berapa banyak kalkulasi yang secara teori bisa dilakukan sebuah chip; bit/J menggambarkan efisiensi energi dalam pemindahan data lokal; bandwidth menggambarkan kemampuan jalur informasi dari satu subsistem. Semuanya adalah pengukuran pada satu dimensi chip.

Namun, rangkaian sistem AI akhirnya harus menjawab pertanyaan: dalam batasan anggaran daya, pendinginan, dan ruang server tertentu, berapa banyak hasil AI yang efektif bisa dihasilkan. Pertanyaan ini tidak bisa dijawab hanya dengan indikator di level chip.

Dari narasi NVIDIA kali ini, terlihat bahwa cost token (biaya), throughput per watt, performa token per watt, dan Token/W.

Bahasa pengukuran sedang beralih dari bahasa komponen ke bahasa sistem.

Jadi, jika pengukuran umum di level chip adalah peak performance, bandwidth, dan bit/J, maka pengukuran yang lebih masuk akal di level sistem adalah Token/W. Yang pertama mengukur kemampuan bagian, yang kedua mengukur output keseluruhan. Yang pertama mengarah ke optimalitas lokal, yang kedua ke optimalitas sistem.

03 Token/W menghubungkan rantai energi hingga output kecerdasan

Dalam teks pidato di GTC 2026, NVIDIA menyebut token sebagai unit dasar AI modern. Penggunaan ini sangat tepat. Untuk model bahasa besar, layanan inferensi, dan sistem Agen, objek yang akhirnya dibayar pengguna secara esensial adalah kemampuan sistem dalam menghasilkan dan memproses token.

Dari sudut pandang operasional bisnis, token memiliki tiga keunggulan: 1) Terhubung langsung dengan proses inferensi model. 2) Terhubung langsung dengan model pendapatan. 3) Cocok untuk menampung beban kerja baru di era inferensi.

Agen, dialog multi-putaran, konteks panjang, penguatan pencarian, panggilan alat, rantai inferensi—semua beban kerja baru ini sulit dijelaskan hanya dengan FLOPS, tetapi semuanya meninggalkan jejak di dimensi token, latency, dan goodput.

Lebih penting lagi, batasan dasar infrastruktur AI saat ini semakin langsung tercermin sebagai batasan energi. Laporan IEA “Energy and AI” memperkirakan, pada tahun 2030, konsumsi listrik pusat data global akan meningkat menjadi sekitar 945 TWh, naik secara signifikan dari saat ini; AI adalah salah satu pendorong utama, dan Amerika Serikat akan menyumbang bagian besar dari pertumbuhan ini. Dengan kata lain, banyak masalah industri AI berikutnya, tampaknya seperti masalah chip, tetapi sebenarnya adalah masalah listrik, pendinginan, dan organisasi infrastruktur.

Konsep Token/W memiliki nilai karena menghubungkan rantai terpenting dalam industri AI: input listrik, melalui komputasi, jaringan, penyimpanan, penjadwalan, dan pendinginan, akhirnya menghasilkan token.

Dalam arti ini, Token/W bukan sekadar menggantikan FLOPS/W atau bit/J. Ia menambahkan sebuah sudut pandang yang sebelumnya tidak diperhatikan:

Berapa banyak energi yang diubah menjadi output kecerdasan oleh sistem AI.

Saya percaya, poin paling berharga dari GTC kali ini terletak di sini, tidak bisa lagi melihat chip secara terpisah, harus menempatkan chip dalam sistem, dan sistem dalam batasan industri.

Ini juga sudut pandang yang selalu didukung penulis. Melihat chip AI, tidak cukup hanya memperhatikan peak performance, bandwidth memori, ukuran, parameter antarmuka, tetapi juga bagaimana chip berkoordinasi dalam jaringan, bagaimana penempatannya di rak, bagaimana mendapatkan listrik di taman industri, bagaimana membentuk struktur biaya di pelanggan, dan akhirnya bagaimana mengubahnya menjadi output nyata di bisnis.

GTC 2026 secara terbuka mengonfirmasi sudut pandang sistem ini. Karena ketika NVIDIA sendiri mulai memusatkan narasi pada AI factory, industri pun beralih dari sentris chip kalkulasi AI ke sentris sistem kalkulasi.

Ini sangat penting. Banyak industri awalnya terjebak pada parameter komponen karena paling mudah diukur dan dipromosikan. Tetapi, begitu industri memasuki fase deployment massal, faktor penentu kemenangan biasanya adalah kemampuan organisasi sistem. Infrastruktur AI saat ini sudah mencapai tahap ini.

04 Dari Token/W ke bawah, pentingnya interkoneksi optik akan meningkat secara signifikan

Ketika sistem pengukuran beralih ke level sistem, banyak bagian yang sebelumnya dianggap pelengkap akan mendapatkan posisi yang lebih utama.

Interkoneksi optik adalah salah satu contoh paling khas.

Dulu, pengukuran interkoneksi optik sering menggunakan sudut pandang modul optik, komunikasi, dan perangkat: bandwidth lebih tinggi, transmisi lebih jauh, pJ/bit lebih rendah, densitas bandwidth lebih baik, insertion loss lebih kecil. Semua indikator ini penting, tetapi bahasa ini masih berfokus pada komponen dan chip di tingkat subsistem. Dalam kerangka Token/W, nilai interkoneksi optik menjadi lebih jelas: mengurangi energi yang dibutuhkan untuk pemindahan data, serta meningkatkan kemampuan sistem besar AI dalam mengubah listrik menjadi token.

Dalam penjelasan produk jaringan optik NVIDIA, CPO berbasis foton mampu mencapai efisiensi hingga 5 kali lipat dibanding modul optik, sekaligus mengurangi latensi dan mendukung ekspansi AI factory yang lebih besar.

Inti dari pernyataan ini bukan hanya tentang koneksi yang lebih maju, tetapi tentang skala sistem yang lebih besar dan efisiensi sistem yang lebih tinggi.

Dari sudut pandang industri, ini sangat masuk akal. Semakin besar model, semakin panjang konteks, dan semakin besar klaster, banyak konsumsi energi dalam sistem tidak terjadi di unit aritmatika, melainkan di pemindahan data, komunikasi antar chip, antar papan, antar rak, dan antar POD.

Pada tahap ini, meningkatkan Token/W tidak lagi cukup hanya dengan GPU yang lebih kuat, tetapi juga membutuhkan interkoneksi yang lebih efisien.

Oleh karena itu, dari sudut pandang Token/W, pengembangan interkoneksi optik bukan karena teknologi ini paling mutakhir, tetapi karena menjadi solusi penghematan energi yang penting untuk sistem AI skala besar.

05 Komputasi optik lebih maju daripada interkoneksi optik, tetapi logikanya mulai terbentuk

Komputasi optik memang lebih awal dibandingkan interkoneksi optik, ini harus jujur.

Masalah umum seperti keberagaman, presisi, compiler, konsistensi manufaktur, dan integrasi sistem masih dalam proses evolusi. Tetapi, jika memperluas batas pengamatan ke level sistem, maknanya dalam industri menjadi lebih mudah dijelaskan daripada sebelumnya.

Alasannya adalah, Token/W fokus pada efisiensi energi end-to-end. Siapa yang mampu menekan konsumsi energi secara signifikan di jalur komputasi berfrekuensi tinggi dan padat, yang bersifat dapat dipetakan ulang secara berulang, maka dia berpeluang meningkatkan efisiensi output token di tingkat sistem. Logika ini tidak mengharuskan komputasi optik menggantikan seluruh GPU, maupun langsung menjadi fondasi komputasi umum.

Cukup satu hal: dalam beban kerja tertentu, turunkan J/token dari seluruh sistem, dan tingkatkan output token dalam batas anggaran daya tetap.

Inilah mengapa narasi komputasi optik perlu beralih dari efisiensi perangkat tunggal ke kontribusi penghematan energi di tingkat sistem. Jika industri hanya melihat TOPS/W, MAC/J, itu lebih seperti cerita laboratorium; tetapi jika mulai melihat Token/W, maka ada peluang untuk masuk ke diskusi infrastruktur.

Perubahan ini sangat penting untuk komputasi optik. Karena akhirnya, ada bahasa tingkat atas yang bisa diajak bicara dengan pelanggan, taman industri, listrik, dan belanja modal.

06 Ketika pengukuran daya komputasi beralih dari chip ke sistem, interkoneksi optik dan komputasi optik akan menjadi fokus utama industri

Ketika kompetisi daya komputasi masih sebatas di level chip, interkoneksi optik lebih mirip teknologi I/O, dan komputasi optik lebih seperti eksplorasi perangkat canggih.

Ketika kompetisi bergeser ke infrastruktur sistem besar AI, situasinya berubah. Efisiensi sistem semakin bergantung pada konsumsi energi dari komputasi intensif, pemindahan data, manajemen konteks, kolaborasi antar node, serta pengaturan daya dan pendinginan. Bagian-bagian ini justru tempat di mana teknologi optik memiliki peluang terbesar untuk berperan.

Dari sudut pandang Token/W, interkoneksi optik menyelesaikan biaya listrik untuk pemindahan data di balik setiap token; komputasi optik berusaha mengurangi sebagian biaya listrik untuk perhitungan di balik setiap token. Keduanya secara bersama-sama mempengaruhi efisiensi output token dari seluruh sistem.

Inilah alasan utama mereka masuk ke jalur utama industri.

Lebih realistis lagi, selain kapasitas dan pasokan chip, batasan yang akan dihadapi pusat data dan pabrik AI di masa depan meliputi akses ke jaringan listrik, pendinginan ruang server, konsumsi energi di taman industri, densitas daya di rak, dan kecepatan produksi. Penilaian sebelumnya dari IEA tentang konsumsi energi AI, serta pernyataan NVIDIA tentang pabrik AI, semuanya mengarah ke satu arah: infrastruktur AI sedang berubah menjadi sistem yang diukur dengan energi.

Melihat ke depan dari arah baru ini, interkoneksi optik dan komputasi optik menyelesaikan bagian dari masalah yang semakin mahal dan sulit dioptimalkan melalui jalur listrik konvensional: biaya energi untuk pemindahan data dan konsumsi energi per unit untuk komputasi berdensitas tinggi.

Di balik ini, tercermin sebuah pola pikir sistem yang lebih lengkap. Inilah juga alasan mengapa GTC 2026 kembali menekankan produk teknologi fotonik dan silikon fotonik:

Ketika pengukuran daya komputasi beralih dari chip ke sistem, optik akan bertransformasi dari teknologi canggih pilihan menjadi infrastruktur industri yang layak dibangun.

Dari sudut pandang ini, CPO dan sistem komputasi optik sangat menjanjikan di masa depan!

Akhir kata: Fokus utama kemajuan AGI

Penulis secara aktif mendorong penetapan standar pengukuran daya komputasi yang objektif dan terukur, serta selalu menggunakan metode Tokens/W untuk menguji berbagai chip kekuatan komputasi.

Melihat sejarah teknologi, ketika energi output mesin pembakaran internal meningkat secara proporsional dengan bobotnya, mobil lahir, pesawat terbang bisa lepas landas, roket bisa meluncur ke luar angkasa.

Dalam era AI, ketika hasil keluaran sistem AI (sekarang Token) dan konsumsi energi meningkat secara proporsional, kecerdasan akan semakin cerdas, dan kemungkinan munculnya AGI pun semakin besar.

Yang benar-benar patut diingat dari GTC 2026 bukanlah keberhasilan atau kegagalan NVIDIA, atau apakah Huang Renxun akan menjadi “Raja Token”, melainkan penetapan ukuran pengukuran baru di era AI.

Lebih jauh lagi, NVIDIA, Alibaba, dan mungkin banyak raksasa industri lainnya, mulai menyadari bahwa mereka harus melihat perkembangan industri AI dari sudut pandang sistem.

Ini sejalan dengan arah utama perkembangan peradaban manusia, yaitu: mengumpulkan, mentransmisikan, dan memproses lebih banyak informasi dengan energi yang lebih rendah.

AGI pun tidak terkecuali!

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan