Jangan terlalu tinggi menilai Nvidia Jangan meremehkan DeepSeek

DeepSeek-V4 akhirnya hadir.

Pada 24 April, versi pratinjau dari model seri terbaru DeepSeek-V4 resmi diluncurkan dan juga dibuka sumbernya secara bersamaan.

DeepSeek-V4 memperkenalkan mekanisme perhatian yang benar-benar baru, melakukan kompresi pada dimensi token, dikombinasikan dengan DSA perhatian jarang (DeepSeek Sparse Attention), mencapai kemampuan konteks panjang terdepan di dunia, dan secara signifikan mengurangi kebutuhan komputasi dan memori GPU dibandingkan metode tradisional.

Jangan anggap remeh, DeepSeek-V4 secara besar-besaran mengurangi kebutuhan akan komputasi dan memori GPU.

Miao Tou berpendapat, ini akan langsung melemahkan keunggulan GPU Nvidia. Perlu dicatat bahwa DeepSeek-V4 juga diutamakan untuk kompatibilitas dengan produsen chip domestik.

Dengan kata lain, jangan terlalu tinggi menilai keunggulan Nvidia, dan jangan pula meremehkan revolusi arsitektur yang sedang diinisiasi oleh DeepSeek. Intinya bukan “siapa menggantikan siapa”, melainkan distribusi keuntungan dalam rantai industri AI, jalur deployment, dan logika investasi, yang mungkin sedang berubah.

Menari dengan “rantai kaki”

Dua tahun terakhir, model besar AI lebih banyak dilihat dari sisi pelatihan, bersaing dalam kekuatan komputasi.

Dalam tingkat tertentu, kompetisi model besar dasar AI pada hakikatnya adalah kompetisi infrastruktur kekuatan GPU. Siapa yang bisa membeli lebih banyak GPU kelas atas, siapa yang bisa membangun kluster lebih besar, mereka punya peluang lebih besar untuk menciptakan model dasar yang lebih kuat.

Namun, karena Amerika Serikat melalui kontrol ekspor, melarang penjualan chip top seperti H100/H200 Nvidia ke China. Selain itu, proses manufaktur canggih TSMC juga sudah diblokir oleh AS, dan GPU domestik serta Nvidia masih memiliki jarak tertentu.

“Produsen GPU domestik semuanya harus berkompetisi di panggung yang sama dengan Nvidia dengan ‘rantai kaki’,” kata seorang pejabat perusahaan GPU kepada Miao Tou.

Yang menarik adalah, di tengah kondisi yang penuh tantangan ini, jarak antara model besar China dan AS mulai menyempit secara bertahap, bahkan mendekati kesetaraan.

Pada akhir 2023, jarak performa model top China dan AS di berbagai dimensi masih berkisar 20%-30%. Pada 14 April, Laboratorium AI Stanford (HAI) merilis “Laporan Indeks AI 2026”, sebuah laporan industri yang berisi 423 halaman yang menunjukkan bahwa jarak performa model besar China dan AS telah menyempit menjadi 2,7%, hampir menyamai secara teknis.

Miao Tou berpendapat, jika melihat jarak performa model besar China dan AS sebagai hasilnya, maka GPU Nvidia bukanlah faktor penentu utama.

Ini sebagian disebabkan oleh bangkitnya chip domestik dan infrastruktur listrik China yang lengkap.

Huang Renxun dalam wawancara terakhir menyatakan, “Inti dari AI adalah masalah komputasi paralel, China sepenuhnya bisa menutupi kekurangan proses pembuatan chip tunggal dengan menumpuk lebih banyak chip, China memiliki sumber energi yang cukup, jika mau, bisa menggabungkan lebih banyak chip, bahkan jika prosesnya tertinggal beberapa nanometer.”

Pada kenyataannya, banyak produsen GPU domestik telah mewujudkan kluster ribuan kartu, untuk mengatasi kekurangan kekuatan komputasi satu kartu. Contohnya: kluster ribuan kartu Moores, dan kluster ribuan kartu Xiyuan-1 dari Muxi.

Di sisi lain, munculnya perusahaan model besar seperti DeepSeek menjadi faktor utama.

DeepSeek menggunakan desain software yang visioner, secara aktif menyesuaikan dan memberdayakan hardware domestik, membuka jalan bagi chip domestik.

Misalnya: DeepSeek-V3 membuktikan bahwa FP8 dapat digunakan dalam pelatihan model skala besar, memperbesar skala pelatihan tanpa menambah biaya ekstra dan tanpa mengorbankan kualitas pelatihan.

Sebagai analogi, dulu untuk menyelesaikan tugas komputasi AI yang kompleks, diperlukan beberapa mesin presisi tinggi dan mahal dari Jerman (melambangkan GPU Nvidia yang presisi tinggi). Sekarang, DeepSeek mengubah proses pengerjaan tugas tersebut (yaitu mengubah format data), sehingga tugas tersebut dapat diselesaikan secara efisien oleh puluhan mesin kecil, sederhana, dan murah dari domestik (melambangkan unit komputasi GPU domestik) yang tersusun dalam sebuah jalur produksi.

Meskipun begitu, GPU Nvidia tetap unggul dalam pelatihan model besar secara global.

Namun, dari sudut pandang evolusi industri, pelatihan model besar hanyalah tahap pertama. Setelah model besar terbentuk, faktor yang benar-benar menentukan kecepatan komersialisasi dan penetrasi industri adalah inferensi. Terutama setelah munculnya agen seperti Openclaw dan Hermes.

Nvidia menang dalam pelatihan, tetapi inferensi baru saja dimulai

Pelatihan dan inferensi adalah dua mode yang berbeda.

Kebangkitan agen seperti Claw, kemampuan memori konteks panjang adalah faktor utama.

Dulu AI hanya bisa ngobrol, lalu lupa setelah berbalik, seperti ikan; sedangkan Claw bisa mengingat segalanya, terus bekerja, semakin sering digunakan semakin paham, menjadikannya “alat” dari “mainan”.

Ketika konteks semakin panjang, memori agen semakin dalam, dan panggilan alat semakin sering, memori cache KV (cache memori) di GPU akan penuh, dan kualitas inferensi model besar akan menurun.

Oleh karena itu, hambatan pertama dalam ledakan inferensi bukanlah kekurangan kekuatan komputasi, melainkan “memori” dan “perhitungan” yang bersaing di memori yang sama.

Bagi GPU domestik, kekuatan (peak TFLOPS) bukan hambatan terbesar, melainkan memori. Dan GPU Nvidia memiliki keunggulan generasi 1-2 tahun dalam teknologi memori.

GPU pusat data utama Nvidia (seperti A100, H100) biasanya dilengkapi dengan kapasitas memori 80GB per kartu, sementara generasi terbaru Rubin GPU dilengkapi 8 chip HBM4 36GB (total kapasitas 288GB), dengan bandwidth memori total meningkat menjadi 13 TB/s.

Chip domestik yang terbatas prosesnya, kapasitas dan bandwidth memori masih lebih rendah, dan harus menembus batas. Contohnya: memori dari Ascend 910B hanya 64GB.

Menurut makalah yang dirilis Liang Wenfeng sebelumnya, DeepSeek-V4 kemungkinan menggunakan arsitektur unik Engram, yang secara khusus menyelesaikan masalah batas kapasitas memori.

DeepSeek-V4 mengadopsi pendekatan dengan mengekstrak pengetahuan statis yang “hafal mati” dari model, menyimpannya dalam tabel memori besar; saat inferensi, CPU bertugas “mencari kamus” (mengambil pengetahuan), GPU hanya bertugas “berpikir logika” (menghitung inferensi).

Keduanya berjalan secara paralel. Saat GPU menghitung logika satu kata, CPU sudah memuat pengetahuan untuk kata berikutnya di pintu masuk. Karena latensi tertutup oleh arsitektur paralel ini, efisiensi output AI per satuan waktu meningkat secara eksponensial, dan memori GPU tidak lagi penuh oleh cache KV.

Contohnya: tugas inferensi konteks panjang yang biasanya membutuhkan 80GB memori, dalam arsitektur Engram mungkin hanya membutuhkan 8GB.

Ini berarti GPU domestik yang terbatas memori juga bisa menyelesaikan tugas yang sama, sementara keunggulan HBM dari Nvidia mulai runtuh. Selain itu, CPU juga akan mengalami ledakan.

Selain itu, yang lebih menarik adalah, DeepSeek-V4 akan segera dirilis, dan kali ini tidak memberi akses awal kepada Nvidia seperti biasanya, melainkan memberi kesempatan adaptasi terlebih dahulu kepada Huawei dan Cambrian. Tujuannya adalah memigrasikan ekosistem dari CUDA ke kerangka Huawei CANN.

Meskipun ekosistem CUDA Nvidia tidak akan tergantikan dalam waktu dekat, sudah mulai muncul celah. Ini juga menunjukkan bahwa DeepSeek tetap memiliki posisi kuat baik di ekosistem open source maupun dalam kemandirian domestik.

Menurut media, untuk memenuhi kebutuhan layanan cloud berbasis model ini, raksasa teknologi seperti Alibaba, ByteDance, dan Tencent telah memesan chip AI generasi baru Huawei dengan jumlah puluhan ribu unit.

Dapat diperkirakan, DeepSeek-V4 yang akan dirilis ini juga akan membawa ekspektasi baru terhadap investasi AI.

Ekspektasi Investasi Baru

Dari sudut pandang investasi, Miao Tou berpendapat bahwa DeepSeek-V4 akan langsung menguntungkan dua arah utama: kekuatan komputasi domestik dan aplikasi AI.

1. Kekuatan komputasi domestik

Jika DeepSeek-V4 benar-benar dilatih sepenuhnya menggunakan kekuatan komputasi domestik, ini akan menjadi “Momen DeepSeek” dalam sejarah chip domestik. Ini membuktikan bahwa meskipun tanpa H100, kita tetap bisa menjalankan model besar kelas dunia.

Perubahan marginal yang dibawa sangat besar dan di luar ekspektasi. Ini setara dengan Google yang melatih Gemini dengan chip TPU buatan sendiri. Perlu diketahui, Google sudah menjadi salah satu saham Berkshire Hathaway milik Buffett.

Sebelumnya, ekspektasi pasar terhadap kekuatan komputasi domestik sebagian besar berfokus pada narasi besar “mandiri dan terkendali”, tetapi V4 akan mengarahkan logika ke “mudah digunakan dan esensial” secara komersial.

Yang paling diuntungkan kali ini adalah produsen GPU domestik. Huawei dan Cambrian sudah mengumumkan secara terbuka. Produsen GPU domestik lainnya juga akan aktif menyesuaikan diri dengan model besar DeepSeek. Dari sudut pandang kepastian, perusahaan seperti Huawei dan Cambrian serta vendor server domestik dan pendukung terkait memiliki peluang terbesar.

Melihat ke tahun 2026, lima perusahaan AI yang sudah go public seperti Cambrian, Bairen Technology, dan Tianshu Zhixin diperkirakan akan mengalami pertumbuhan pendapatan sekitar 120% hingga sekitar 25,7 miliar RMB.

Selain itu, dari segi elastisitas, Muxi diperkirakan akan membalikkan kerugian menjadi laba pada 2026, berpotensi menjadi produsen GPU yang menghasilkan laba setelah Cambrian, menutup siklus bisnis.

Oleh karena itu, kekuatan komputasi domestik akan menjadi fokus utama perhatian investasi AI.

2. Aplikasi AI

Selain menyesuaikan kebutuhan inferensi dengan kekuatan komputasi domestik, DeepSeek-V4 kemungkinan akan menurunkan biaya pelatihan dan inferensi melalui inovasi arsitektur (teknologi mHC dan Engram), mempercepat siklus inovasi nilai AI di China.

Selain itu, DeepSeek diharapkan membantu percepatan komersialisasi model bahasa besar global dan perusahaan aplikasi AI, sehingga mengurangi beban biaya modal yang semakin berat.

Dengan implementasi arsitektur Engram, kebutuhan memori GPU akan berkurang 90%, dan biaya perangkat keras inferensi akan sangat terpangkas. Ini adalah kabar baik besar untuk deployment di terminal (AI inferensi edge).

Selain itu, sejak Januari tahun ini, kinerja sektor aplikasi AI di pasar A-share cenderung lesu, dengan kekhawatiran utama tentang “model besar yang menyedot perangkat lunak”. Aplikasi AI telah memasuki fase “logika pemusnahan”.

Namun, peluncuran DeepSeekV4 berpotensi memperbaiki suasana ini. Bagi perusahaan aplikasi domestik di pasar A-share, model besar lebih mirip infrastruktur murah yang membantu mengoptimalkan biaya.

Miao Tou berpendapat, perusahaan aplikasi AI yang terkait erat dengan data inti dan penyedia layanan cloud terkait juga akan mengalami perbaikan marginal.

Ringkasan

Nvidia tetap menjadi infrastruktur paling kuat untuk pelatihan model besar, ini tidak diragukan lagi. Dalam jangka pendek, keunggulan mereka di GPU pelatihan kelas atas, ekosistem CUDA, dan kemampuan kluster masih sangat sulit digantikan.

Namun, jangan abaikan bahwa keunggulan Nvidia secara bertahap mulai tergeser oleh upaya “kurva penyelamatan negara” dari DeepSeek.

DeepSeek-V4 secara awal menyesuaikan dengan chip domestik dan inovasi yang sedang diuji coba, berusaha membuktikan bahwa inferensi AI tidak harus selalu bergantung pada GPU termurah, melainkan juga bisa melalui optimisasi sistem, kolaborasi perangkat lunak dan keras, serta deployment lokal, membuka jalan baru. Dan kekuatan komputasi domestik bisa melangkah lebih jauh lagi.

Jangan terlalu tinggi menilai Nvidia, dan jangan meremehkan DeepSeek serta kekuatan komputasi domestik.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan