Zhongke Sugon merilis "versi standar" super node, bentuk masa depan kekuatan komputasi inferensi AI?

robot
Pembuatan abstrak sedang berlangsung

Sumber: Tai Media

OpenClaw tiba-tiba meledak dan mendadak populer; ini tidak hanya merupakan sesuatu yang niscaya untuk “meledak keluar” (out of the圈) dari jalur AI Agent, tetapi juga menjadi uji tekanan bagi pasar komputasi daya komputasi (inference) berbasis AI.

Pada Forum Zhongguancun 2026 pertengahan tahun, Tiongkok Sugon (Zhongke Shuguang) merilis node super nirkabel berbentuk kotak kabel skalaX40 pertama di dunia. Sebelum itu, node super adalah raksasa dengan skala ratusan kartu bahkan hingga ribuan kartu, misalnya scaleX640 yang dirilis Tiongkok Sugon, NVL72 dari NVIDIA, Hygon Ascend 384 dari Huawei, dan lainnya.

Node super kelas atas ini dirancang khusus untuk pelatihan model skala sangat besar; performanya kuat, tetapi ambang batas penerapannya sangat tinggi: rack kabinet khusus, koneksi kabel yang kompleks, serta tim operasi dan pemeliharaan profesional. Investasi yang mencapai puluhan juta hingga ratusan juta membuatnya pada akhirnya hanya bisa melayani segelintir pemain papan atas, misalnya raksasa internet atau perusahaan BUMN/negara besar.

Di sisi “kebalikan” node super, terdapat server GPU 8 kartu tradisional yang sudah mapan dan menjadi arus utama di pasar inferensi. Produk seperti ini fleksibel dalam penerapan dan biayanya terukur, tetapi ketika menghadapi kebutuhan komputasi daya inferensi AI yang meningkat cepat, performanya terasa kurang.

“Untuk kondisi saat ini, server 8 kartu sudah jauh tertinggal; bahkan jika skala internet diperluas menjadi 16 kartu, tetap tidak bisa mengejar langkah perkembangan layanan inferensi model.” kata Li Bin, Wakil Presiden Senior Tiongkok Sugon, “Infrastruktur komputasi daya untuk mendukung perkembangan AI secara bertahap berubah dari yang dulu menjadi ‘pabrik komputasi daya’ menjadi ‘pabrik Token’. Sasaran layanan utama sistem komputasi daya telah beralih: dari yang sebelumnya terutama mendukung pelatihan model, kini berubah menjadi terutama melayani inferensi.”

Pada era pelatihan, indikator inti untuk menilai sistem komputasi daya adalah berapa banyak daya komputasi yang dimiliki; sedangkan pada era inferensi, indikator yang menjadi lebih penting berubah menjadi “mampu menghasilkan Token dengan biaya yang paling ekonomis”.

Gambar dari AI generatif

Permintaan AI terpecah, komputasi daya inferensi masih jauh dari terpenuhi

Dari kebutuhan pasar saat ini, struktur komputasi daya AI sedang mengalami perubahan berlapis. Menurut prediksi lembaga industri, investasi global untuk infrastruktur AI masih akan terus tumbuh dengan cepat, namun permintaan tambahan secara bertahap bergeser dari klaster skala sangat besar menuju skenario tingkat enterprise dan aplikasi industri.

Dalam tren ini, fokus penataan komputasi daya tidak lagi semata mengejar batas skala maksimum, melainkan lebih menaruh perhatian pada keseimbangan performa, biaya, dan fleksibilitas. Konsensus umum di industri adalah bahwa skala puluhan kartu sudah cukup untuk memenuhi kebutuhan komputasi daya pelatihan model, inferensi, dan pengujian pengembangan di sebagian besar skenario industri; ini juga merupakan rentang “titik temu terbesar” antara efisiensi dan investasi.

Namun, evolusi kebutuhan pada lapisan aplikasi AI terlalu cepat. Termasuk ledakan AI Agent yang diwakili oleh OpenClaw, yang sambil mengubah aplikasi industri tradisional, juga menghadirkan kebutuhan rekonstruksi sistem pada sisi suplai komputasi daya saat ini.

Pertama, hambatan komunikasi. Kini pada model MoE, komunikasi menjadi “kunci kemacetan” utama untuk meningkatkan utilisasi komputasi daya, terutama karena ketidakpastian distribusi para ahli (experts), yang menyebabkan banyak komunikasi lintas kartu dan lintas mesin langsung menembus arsitektur komputasi daya server tradisional 8 kartu.

Kedua, hambatan memori video (VRAM). Jendela konteks terus diperluas; kemampuan memori konteks panjang yang dibutuhkan OpenClaw juga membuat kebutuhan memori video yang besar serta KV Cache semakin melonjak. Ini juga merupakan keterbatasan yang sulit ditembus oleh server tradisional 8 kartu.

Ketiga, hambatan utilisasi komputasi daya. Utilisasi komputasi daya dan biaya implementasi inferensi hampir berbanding terbalik. Klaster tradisional umumnya mengalami masalah utilisasi komputasi daya yang tidak mencukupi. Tantangan intinya bukan hanya menumpuk perangkat keras, melainkan mencapai peningkatan ganda efektivitas sistem dan utilisasi komputasi daya yang efektif melalui inovasi arsitektur perangkat keras, dipadukan dengan kerja sama yang kuat dari sistem engineering dan optimization engineering.

Keempat, hambatan ekosistem. Ekosistem komputasi daya domestik rumit, banyak vendor, dan rantai industri panjang; kesulitan koordinasi industri tidak kecil. Karena itu, diperlukan bantuan dari open computing architecture untuk menjembatani seluruh rantai hulu-hilir industri seperti chip, model, dan aplikasi, serta membangun fondasi komputasi daya yang terbuka, mudah digunakan, “plug-and-play”, dan terjangkau secara ekonomi.

Tiongkok Sugon berharap menggunakan node super “paket standar” 40 kartu untuk merespons pasar. “Zona manis 40 kartu—itulah yang kami teliti dan jelajahi bersama berbagai pelanggan melalui riset survei.” kata Li Liu, Wakil Presiden Tiongkok Sugon. “Dengan ukuran parameter dan skenario penggunaan model arus utama saat ini, 32–40 kartu sudah mampu mencakup kebutuhan sebagian besar industri, sekaligus menjaga keseimbangan biaya dan performa.”

Node tunggal scaleX40 mengintegrasikan 40 GPU; total daya komputasi lebih dari 28PFLOPS (akurasi FP8), kapasitas HBM VRAM lebih dari 5TB, dan bandwidth akses memori lebih dari 80TB/s. Keandalan sistem ditingkatkan menjadi 99,99%.

Konfigurasi skala scaleX40 tidak hanya memiliki kemampuan untuk mendukung pelatihan dan inferensi model besar, tetapi juga tidak menimbulkan tekanan investasi yang terlalu berat. Ke bawah, ia dapat mengakomodasi 32 kartu untuk memenuhi pelatihan, inferensi, dan pengujian pengembangan skala menengah-kecil; ke atas, ia bisa diekspansikan untuk membentuk klaster skala lebih besar.

Li Bin menghitung: “Investasi dari gabungan 5 mesin 8 kartu tradisional ditambah berbagai biaya kira-kira setara dengan scaleX40, tetapi scaleX40 dapat meningkatkan performa pelatihan hingga 120%, dan performa inferensi tertinggi bisa meningkat hingga 330%.”

Dari DeepSeek ke OpenClaw, titik balik komputasi daya yang baru

“Token membutuhkan komputasi daya untuk menghasilkan output, tetapi dimensi dan indikator penilaiannya menjadi lebih banyak.” kata Li Bin. “Bagi pengguna biasa, yang diperhatikan adalah kecepatan respons: setelah menanyakan satu pertanyaan, apakah ia bisa memberikan umpan balik dengan cepat; bagi operator sistem komputasi daya, perlu mempertimbangkan berapa banyak pengguna yang dapat didukung secara bersamaan dalam akses konkurennya, sekaligus memastikan pengalaman penggunaan dasar.”

Kepala Bagian Penelitian dan Pengembangan Rangka Kerja AI di Yuan Zhi Research Institute, Ao Yulong, juga mengemukakan, “Di masa depan, untuk pihak yang memasok komputasi daya, indikator kunci adalah bagaimana mengubah komputasi daya menjadi Token yang efektif, bukan Token yang tidak efektif. Siapa yang bisa menurunkan biaya ini, dialah pemenangnya yang sesungguhnya.”

Desain scaleX40 disusun mengelilingi kebutuhan baru tersebut. Memori video besar 144G mendukung jendela konteks panjang; mekanisme cache KV Cache multi-level memenuhi kebutuhan memori video besar untuk skenario inferensi; serta interkoneksi jalur lebar (high bandwidth domain) level pertama 40 kartu akan mengumpulkan arus keluar-ke-keluar (out-to-out) komunikasi para ahli (experts) dalam satu node. Fitur-fitur ini semuanya dirancang dengan kendali biaya sebagai prasyarat, untuk memaksimalkan efisiensi produksi Token per satuan komputasi daya.

Desain nirkabel berbentuk kotak kabel juga merupakan pembeda besar scaleX40. Salah satu masalah utama node super tradisional terletak pada kompleksitas penerapan. Misalnya NVL72 dari NVIDIA: ia menggunakan skema koneksi kabel tembaga; antar kabinet memerlukan banyak sambungan kabel. Hal ini tidak hanya memberi tuntutan keras pada kondisi lingkungan ruang server, tetapi juga membuat periode penerapan lama, dan tingkat kegagalan pada operasi dan pemeliharaan setelahnya juga tinggi.

Solusi scaleX40 serupa dengan solusi terbaru yang diumumkan NVIDIA pada konferensi GTC tahun ini: menggunakan teknologi bus untuk melakukan Scale-up extension, sementara node komputasi dan node switching memakai arsitektur nirkabel kabel ortogonal untuk saling “dicolok langsung”.

Desain ini membawa banyak manfaat. Pertama, performa teknologi bus mencapai lebih dari 10 kali dibanding jaringan NDR tradisional, serta mendukung penulisan alamat terintegrasi semantik memori dan keseragaman pengalamatan memori video (VRAM). Kedua, penyiapan jaringan pada lapisan pertama menurunkan latensi satu arah P2P menjadi kurang dari ratusan nanodetik; dibandingkan dengan jaringan lapis kedua, latensi turun lebih dari 30%, dan tingkat kegagalan turun 30%–50%.

Kedua, scaleX40 menggunakan desain kotak 19 inci standar; tinggi per mesin hanya 16U, sehingga dapat langsung ditempatkan di kabinet server arus utama, kompatibel dengan lingkungan pusat data yang ada, tanpa modifikasi tambahan.

“Banyak produk dulu, entah ukurannya besar, atau tidak distandardisasi, atau modifikasi ruang server sangat rumit.” kata Li Liu. “scaleX40 bisa diletakkan di dalam kabinet standar, menyambungkan sistem catu daya dan pendingin ruang server standar, sehingga ambang batas penerapan dan penggunaan turun secara signifikan.”

Wang Zixia, Kepala Teknologi Jaringan ZhiSuan di Institut Riset China Telecom, juga mengatakan: “Dengan bentuk node super untuk menyediakan layanan inferensi, performanya meningkat sekitar 2,6 kali dibanding single machine 8 kartu tradisional. Kemampuan ‘plug-and-play’ node super secara jelas meningkat; kompleksitas konfigurasi jaringan Scale-out turun hingga skala orde besarnya, yang sangat berarti bagi penerapan berskala industri secara luas.”

Jika dilihat lebih dalam, peluncuran scaleX40 juga mencerminkan kedewasaan ekosistem komputasi daya domestik. Mulai dari chip hingga perangkat lunak sistem, dari penyimpanan hingga jaringan, dari perpustakaan operator hingga perpustakaan komunikasi—sebuah rantai industri lengkap sedang terbentuk. Seperti yang dikatakan Li Bin: “Kami di seluruh ekosistem komputasi AI domestik, dari chip ke perangkat lunak sistem, hingga model dan aplikasi di lapisan atas, sedang melakukan kolaborasi lintas-layer vertikal melalui kopling dan koordinasi secara vertikal untuk menghasilkan efisiensi yang lebih baik.”

Ketika node super mulai dideploy dan digunakan dengan cara yang lebih sederhana, dan ketika ratusan industri dapat memperoleh kemampuan komputasi daya kelas atas dengan biaya yang wajar, aplikasi AI secara berskala mungkin baru benar-benar melangkah ke langkah kunci berikutnya. (Penulis artikel ini | Zhang Shuai, editor | Yang Lin)

Pernyataan Khusus: Konten di atas hanya mewakili pandangan atau sikap penulis pribadi, dan tidak mewakili pandangan atau sikap headline Sina Finance. Jika perlu menghubungi headline Sina Finance terkait konten karya, hak cipta, atau masalah lainnya, mohon lakukan dalam waktu 30 hari sejak konten dipublikasikan.

Limpahan informasi besar, penafsiran yang presisi—hanya di aplikasi Sina Finance APP

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan