Nvidia mengintegrasikan teknologi LPU, meluncurkan chip inferensi baru, menandai pergeseran kompetisi kekuatan AI dari pelatihan ke inferensi. Di masa depan, pasar inferensi akan menunjukkan empat tren utama, teknologi akan mengalami rekonstruksi, peningkatan chip domestik akan dipercepat, dan permintaan inferensi akan melonjak, yang berarti produsen chip dengan keunggulan biaya akan mendapatkan manfaat.

SnapshotLaborer

2026-03-01 11:45:46

Pembuatan abstrak sedang berlangsung

Nvidia mengintegrasikan teknologi LPU (unit pemrosesan bahasa) dan chip inferensi taruhan multi-lini OpenAI, dan mengalihkan medan perang utama persaingan daya komputasi AI dari pelatihan ke inferensi. Penelitian Shenwan Hongyuan percaya bahwaKata kunci inti dari industri daya komputasi pada tahun 2026 adalah penalaran, dan total konsumsi token dan paradigma teknis akan direkonstruksi secara mendalam di sekitar tema ini.

Pada 28 Februari, menurut Wall Street Journal, Nvidia berencana untuk merilis chip inferensi baru yang mengintegrasikan teknologi "unit pemrosesan bahasa" (LPU) Groq pada konferensi pengembang GTC bulan depan.CEO Nvidia Jensen Huang menyebutnya sebagai sistem baru yang "belum pernah dilihat dunia sebelumnya."。 OpenAI telah setuju untuk menjadi salah satu pelanggan terbesar prosesor dan akan membeli "kapasitas inferensi khusus" skala besar dari Nvidia.

Sementara itu, OpenAI mencapai kemitraan komputasi multi-miliar dolar dengan startup Cerebras bulan lalu, yang mengatakan chip inferensinya telah melampaui GPU (unit pemrosesan grafis) Nvidia. Rangkaian tren ini menunjukkan bahwaRaksasa AI bergeser dari perlombaan senjata ke tata letak multi-baris daya komputasi inferensi.

Laporan Shenwan Hongyuan menunjukkan,Di era ekonomi token, daya komputasi inferensi mengantarkan empat tren utamaPertama, jumlah skenario penyebaran CPU murni (unit pemrosesan pusat) telah meningkat, dan permintaan untuk inferensi berbiaya rendah telah mempercepat tenggelamnya daya komputasi; kedua, munculnya arsitektur khusus seperti LPU, menantang dominasi GPU dalam proses inferensi; ketiga, chip daya komputasi domestik telah mempercepat terobosan, dan tren diversifikasi rantai pasokan jelas; Keempat, struktur permintaan daya komputasi inferensi telah berubah dari "pelatihan tunggal" menjadi "konsumsi token besar-besaran", dan kinerja biaya telah menjadi faktor kompetitif inti.

Laporan itu mengatakan,Produsen yang dapat menyediakan chip inferensi yang cukup dan hemat biaya akan mendapat manfaat paling besar, dan terobosan bersama CPU, LPU, dan chip domestik merupakan petunjuk inti dari putaran pembentukan ulang pola daya komputasi ini.

Permintaan inferensi telah meledak, dan konsumsi token telah mencapai rekor tertinggi
---------------------

Penelitian Shenwan Hongyuan percaya bahwaDi balik perluasan permintaan yang berkelanjutan adalah dua kekuatan pendorong struktural: pertama, monetisasi model besar telah dipercepat, dan model seperti Claude telah mulai memotong sisi aplikasi dan merilis berbagai plug-in industri；Kedua, implementasi Agen telah dipercepat, dan produk seperti openclaw dan Qianwen Agent menandai bahwa Agen memasuki skenario kerja dan produksi nyata, dan setiap panggilan model dan eksekusi tugas Agen membutuhkan sejumlah besar dukungan daya komputasi inferensi.

Menurut data yang dikutip oleh Shenwan Hongyuan Research, volume inferensi model besar terkemuka domestik meningkat secara signifikan selama Festival Musim Semi: throughput inferensi Doubao pada Malam Tahun Baru mencapai 63,3 miliar token, pengguna aktif bulanan Yuanbao mencapai 114 juta, dan jumlah peserta dalam aktivitas "Pesanan Gratis Festival Musim Semi" Qianwen melebihi 120 juta.

Data dari OpenRouter, platform agregasi API model AI global, lebih lanjut mengungkapkan besarnya tren ini. Pada minggu dari 9 hingga 15 Februari, model China melampaui model AS sebesar 2,94 triliun token untuk pertama kalinya dengan 4,12 triliun token; pada minggu 16 hingga 22 Februari, jumlah panggilan model China semakin meningkat menjadi 5,16 triliun token, naik 127% dalam tiga minggu, dan China menempati empat dari lima model teratas di dunia.

LPU telah menjadi pemula, dan chip pelatihan dan inferensi dibedakan
------------------

Nvidia menghabiskan $ 20 miliar untuk melisensikan teknologi inti Groq dan membawa tim eksekutif, termasuk pendiri Jonathan Ross, dalam kesepakatan "perekrutan inti". Penelitian Shenwan Hongyuan percaya bahwaKesepakatan ini menandai pengakuan resmi akan pentingnya chip penalaran murni oleh pemain top.

Perbedaan arsitektur antara LPU dan GPU tradisional adalah alasan mendasar mengapa mereka memiliki keunggulan efisiensi dalam skenario inferensi.Inferensi AI dibagi menjadi dua tahap: pra-pengisian dan decoding, dan proses decoding model besar sangat lambat, sementara LPU telah dioptimalkan secara khusus untuk dua kemacetan inferensi utama latensi dan bandwidth memori. Menurut laporan sebelumnya dari Wall Street News, produk baru Nvidia yang akan datang mungkin melibatkan arsitektur Feynman generasi berikutnya, atau mengadopsi skema integrasi SRAM yang lebih luas, atau bahkan mengintegrasikan LPU secara mendalam melalui teknologi susun 3D.

Shenwan Hongyuan Research menilai bahwa chip AI akan membentuk pola pembagian teknis yang jelas di masa depan:Sisi pelatihan terus menggunakan kombinasi GPU-HBM, sedangkan sisi inferensi berevolusi menjadi skema kombinasi ASIC + LPU-SRAM + SSD. Karena permintaan daya komputasi beralih dari pelatihan ke inferensi, produsen yang berfokus pada chip inferensi akan mengantarkan peluang pengembangan.

Sistem inferensi telah diinovasi secara komprehensif, dan persyaratan CPU dan jaringan telah meningkat secara bersamaan
---------------------

Dari chip tunggal ke tingkat sistem, inovasi adalah dimensi penting lainnya dari putaran peningkatan daya komputasi inferensi ini. Shenwan Hongyuan Research menunjukkan bahwa ketika skenario aplikasi bergeser dari chatbot ke Agen,Persyaratan untuk latensi, throughput, dan kedalaman pemikiran dalam sistem komputasi telah meningkat pada saat yang sama, mempromosikan evolusi arsitektur sistem ke jaringan Layer 3.

Lapisan pertama adalah lapisan reaksi cepat, disediakan oleh chip inferensi murni yang dilengkapi dengan SRAM untuk memberikan umpan balik latensi yang sangat rendah;Lapisan kedua adalah lapisan berpikir lambat, menggunakan klaster daya komputasi throughput ultra-besar untuk menangani deduksi logika yang kompleks, permintaan akan CPU multi-core dan multi-threaded pada lapisan ini akan meningkat secara signifikan;Lapisan ketiga adalah lapisan memori, sesuai dengan Sistem ContextMemory yang dirilis oleh NVIDIA, memori jangka panjang dan cache KV agen penyimpanan SSD yang dikelola oleh Bluefield4 DPU.

Nvidia juga menyesuaikan strateginya di tingkat perangkat keras. Praktik standar sebelumnya untuk menggabungkan CPU Vera dengan GPU Rubin terbukti sangat mahal untuk beban kerja agen AI tertentu. Nvidia mengumumkan bulan ini bahwa mereka telah memperluas kemitraannya dengan Meta Platforms untuk menyelesaikan penerapan CPU murni skala besar pertamanya untuk mendukung agen AI yang ditargetkan iklan Meta, menandai bahwa perusahaan bergerak melampaui satu model penjualan GPU.

Terobosan akselerasi daya komputasi domestik
--------

Penelitian Shenwan Hongyuan percaya bahwaPeningkatan teknologi chip inferensi domestik patut diperhatikan, dan ada ekspektasi pasar yang buruk.

Pada tingkat teknis,Generasi baru chip inferensi domestik telah mencapai sejumlah peningkatan mendasar: Menambahkan dukungan untuk format data presisi rendah seperti FP8/MXFP8/MXFP4, dengan daya komputasi masing-masing mencapai 1P dan 2P. Sangat meningkatkan daya komputasi vektor dan mengadopsi desain isomorfik baru yang mendukung model pemrograman ganda SIMD/SIMIT. Bandwidth interkoneksi 2,5 kali lebih tinggi dari generasi sebelumnya, mencapai 2 TB/s.

Sangat patut dicatat bahwa pemisahan PD dicapai pada tingkat chip: melalui HBM yang dikembangkan sendiri dengan dua spesifikasi berbeda, ini merupakan versi PR untuk skenario Prefill dan rekomendasi, dan versi DT untuk Decode dan skenario pelatihan. Di antara mereka, versi PR mengadopsi HBM berbiaya rendah, yang dapat sangat mengurangi biaya investasi tahap prefill inferensi, dan diharapkan akan diluncurkan pada Q1 2026.

Di tingkat rantai pasokan, kemajuan produsen pengemasan dan pengujian dalam negeri memberikan bukti. Menurut putaran pertama pertanyaan dan balasan dari perusahaan pengemasan dan pengujian terkemuka, pendapatan bisnis pengemasan 2.5D-nya terutama berasal dari layanan pengemasan chip komputasi berkinerja tinggi, yang telah tumbuh pesat dari 50 juta yuan pada tahun 2022 menjadi 1,82 miliar yuan pada tahun 2024.Ini menegaskan bahwa kapasitas pasokan chip daya komputasi domestik terus meningkat, dan proses lokalisasi rantai pasokan semakin cepat.

Peringatan risiko dan penafian

Pasar berisiko, dan investasi perlu berhati-hati. Artikel ini bukan merupakan saran investasi pribadi dan tidak memperhitungkan tujuan investasi tertentu, situasi keuangan, atau kebutuhan pengguna individu. Pengguna harus mempertimbangkan apakah pendapat, pendapat, atau kesimpulan yang terkandung dalam artikel ini konsisten dengan keadaan spesifik mereka. Berinvestasilah sesuai dengan risiko Anda sendiri.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
TradfiTradingChallenge
144.73K Popularitas
#
PYTHUnlocks2.13BillionTokens
928.17K Popularitas
#
IsraelStrikesIranBTCPlunges
47.99K Popularitas
#
#DailyPolymarketHotspot
1.01M Popularitas
#
TrumpDelaysIranStrike
16.08M Popularitas

Disematkan

peta situs

Di balik "chip misterius" Nvidia--Era penalaran membuka "Empat tren baru dalam kekuatan komputasi"

Topik Trending

TradfiTradingChallenge

PYTHUnlocks2.13BillionTokens

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

TrumpDelaysIranStrike

Disematkan