Lonjakan Permintaan Daya Komputasi Reasoning, Perusahaan Rantai Industri Mempercepat Ekspansi

robot
Pembuatan abstrak sedang berlangsung

Securities Daily Reporter Wang Jingru

Seiring teknologi kecerdasan buatan generatif yang secara bertahap beralih dari “pelatihan model” ke penerapan komersial skala besar, konsumsi daya yang berfokus pada pelatihan secara bertahap beralih ke kebutuhan daya yang berkelanjutan yang didominasi oleh inferensi. Pada 17 Maret, CEO NVIDIA Jensen Huang menyatakan di konferensi GTC bahwa titik balik pasar inferensi AI telah tiba, AI telah sepenuhnya memasuki tahap inferensi dan eksekusi dari tahap pelatihan, dan permintaan daya inferensi meningkat secara eksponensial.

“Seiring peningkatan skala aplikasi kecerdasan buatan generatif, kecepatan pertumbuhan kebutuhan daya inferensi mungkin jauh melebihi daya pelatihan. Di satu sisi, permintaan aplikasi meledak, penerapan AI generatif dan agen cerdas mempercepat, interaksi pengguna yang tinggi frekuensinya membawa permintaan inferensi yang eksponensial; di sisi lain, teknologi seperti chip inferensi khusus, pendinginan cairan, dan interkoneksi optik terus berkembang, secara signifikan meningkatkan efisiensi daya dan kemampuan paralel, membangun dasar untuk penerapan skala besar,” kata Zhang Pengyuan, peneliti di Shenzhen Qianhai PaiPaiNet Fund Sales Co., Ltd., kepada wartawan Securities Daily.

Menurut prediksi lembaga industri, pentingnya daya inferensi terus meningkat. International Data Corporation (IDC) memperkirakan bahwa pada 2027, proporsi daya inferensi di seluruh daya akan melewati 70%. Huang Chao, pendiri dan CEO China IDC Circle, menyatakan bahwa pada 2026, agen industri akan memasuki tahap berkembang yang beragam, dan aplikasi daya akan beralih dari “berbasis pelatihan” ke “berbasis inferensi”, dan ledakan permintaan daya inferensi akan segera terjadi secara menyeluruh.

Menghadapi pertumbuhan cepat kebutuhan daya inferensi, perusahaan rantai industri domestik mempercepat pengembangan teknologi dan penataan produk. Di tingkat chip, banyak produsen meluncurkan chip yang dioptimalkan untuk skenario inferensi. Dibandingkan dengan chip pelatihan tradisional, chip inferensi lebih menekankan pengendalian konsumsi daya, efisiensi biaya, dan fleksibilitas penempatan, sehingga memiliki ruang aplikasi yang luas di cloud dan edge.

Sebagai contoh, Shenzhen Yuntian Lifei Technology Co., Ltd. (selanjutnya disebut “Yuntian Lifei”) berfokus pada NPU, menetapkan jalur teknologi GPNPU untuk chip daya besar di skenario inferensi cloud, dan melakukan optimasi mendalam pada matriks, unit vektor, tingkat penyimpanan, dan pemanfaatan bandwidth efektif, dengan tujuan menurunkan biaya token secara eksponensial dan mempercepat penerapan model besar secara massal dan inklusif.

Pada 2025, Yuntian Lifei mencapai pendapatan operasional sebesar 1,308 miliar yuan, meningkat 42,57% dari tahun sebelumnya. Pejabat terkait dari Yuntian Lifei mengatakan kepada wartawan Securities Daily, “Bagi perusahaan, seiring kompetisi industri beralih dari skala pelatihan ke efisiensi inferensi, biaya pengiriman, dan kemampuan menghasilkan uang sistem, siapa yang dapat lebih awal menyelaraskan perangkat keras, penyimpanan, dan perangkat lunak akan memiliki peluang lebih besar untuk menguasai era inferensi.”

Di tingkat server dan sistem, produsen terkemuka juga terus meluncurkan platform daya yang dioptimalkan untuk skenario inferensi. Misalnya, Inspur Electronic Information Industry Co., Ltd. meluncurkan server inferensi YuanNao R1 yang mampu mendukung 16 kartu PCIe double-wide standar per mesin, dan dapat langsung men-deploy model DeepSeek-671B; serta server inferensi CPU YuanNao yang dapat dengan cepat men-deploy dan menjalankan model inferensi generasi baru seperti DeepSeek-R132B dan QwQ-32B.

Sementara itu, pembangunan infrastruktur daya juga semakin dipercepat. Dulu, banyak pusat komputasi pintar domestik mengadopsi model pembangunan terpadu pelatihan dan inferensi. Pada 12 Maret, Yuntian Lifei memenangkan proyek pembangunan infrastruktur kekuatan produksi baru berbasis AI yang mendukung penetrasi AI di Zhanjiang, Guangdong, yang difokuskan pada tugas inferensi AI, terutama untuk berbagai skenario industri, menyediakan contoh penerapan AI untuk industri tradisional domestik.

General Manager He Li dari Beijing Zhi Yu Zhi Shan Investment Management Co., Ltd. berpendapat bahwa dalam perubahan ini, chip inferensi berkinerja tinggi, HBM, dan perangkat lunak lengkap akan menjadi yang pertama mendapatkan manfaat dari ledakan daya. Skenario inferensi membutuhkan latensi rendah, throughput tinggi, dan efisiensi energi yang sangat tinggi, sehingga arsitektur khusus seperti LPU dan ASIC akan mempercepat penggantian unit komputasi umum, dan teknologi penyimpanan seperti HBM4 akan menjadi kunci untuk mengatasi hambatan bandwidth. Selain itu, daya komputasi dari pusat data ke edge semakin menyebar, dengan kebutuhan untuk rak inferensi berkapasitas tinggi dan teknologi pendinginan canggih, serta optimisasi kompilasi seperti kuantisasi model dan kompresi parameter, akan mendorong industri beralih dari tumpukan perangkat keras ke kolaborasi perangkat keras dan perangkat lunak.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan