Jalur DeepSeek sebesar 10 triliun dolar AS: Menggerakkan ekosistem perangkat keras bernilai triliun melalui sumber terbuka

Judul asli: Strategi besar DeepSeek senilai 10 triliun USD
Penulis asli: @bookwormengr
Diterjemahkan: Peggy, BlockBeats

Catatan editor: Sepanjang tahun lalu, diskusi seputar DeepSeek sebagian besar berfokus pada performa model, strategi open source, dan perang harga. Tapi jika hanya dipahami dari sudut pandang "menjual langganan atau tidak", "ada multimodal atau tidak", "bisa jadi agen coding atau tidak", mungkin kita meremehkan hal yang sebenarnya ingin diubah oleh DeepSeek.

Artikel ini mengajukan penilaian yang lebih agresif: Tujuan DeepSeek mungkin bukan sekadar monetisasi jangka pendek melalui lapisan aplikasi, melainkan melalui serangkaian inovasi arsitektur dasar, untuk merombak struktur biaya pelatihan dan inferensi AI, serta secara tidak langsung mendorong terbentuknya ekosistem hardware baru. Dari MoE, MLA hingga DSA, CSA, mHC, Engram, lalu Dual Path dan TileLang, jalur teknologi DeepSeek selalu berfokus pada satu pertanyaan inti: di tengah keterbatasan HBM, proses canggih, kemasan, dan ekosistem CUDA, bagaimana menjalankan model yang lebih kuat dengan lebih sedikit daya komputasi kelas atas.

Yang paling patut diperhatikan dari artikel ini bukanlah "apakah DeepSeek bisa menghasilkan miliaran dolar dari API atau langganan", melainkan apakah mereka sedang mengikat kemampuan model, sistem memori, dan ekosistem hardware domestik menjadi satu kesatuan. Kompresi KV Cache yang mengurangi ketergantungan pada HBM, NAND dan SSD yang mampu menampung cache jangka panjang, LPDDR yang digunakan untuk streaming bobot dan penyimpanan Engram, serta TileLang yang berusaha melemahkan keunggulan CUDA—jika inovasi-inovasi ini terus menyebar, manfaatnya tidak hanya untuk DeepSeek sendiri, tetapi juga untuk penyimpanan, ASIC, GPU, chip jaringan, dan seluruh rantai infrastruktur AI.

Tentu saja, penilaian tentang "ekosistem industri senilai 10 triliun dolar" dan "valuasi 1 triliun dolar" masih bersifat spekulatif. Tapi ini memberi kita satu jalur penting untuk memahami DeepSeek: open source tidak harus berarti meninggalkan komersialisasi, dan harga murah tidak selalu sekadar subsidi pasar. Bagi DeepSeek, bisnis sejati mungkin bukan di lapisan aplikasi, melainkan membantu hardware menjadi lebih tersedia, dan membuat supply AI berbiaya rendah menjadi kenyataan. Dengan kata lain, yang mereka jual bukan sekadar model, melainkan kelayakan infrastruktur AI generasi berikutnya.

Berikut ini teks aslinya:

Pernahkah Anda berpikir, bagaimana sebenarnya DeepSeek akan menghasilkan uang, dan mungkin sangat banyak?

Dia tidak seperti GLM, MoonShot, dan MiniMax yang meluncurkan langganan pemrograman yang kompetitif; juga tidak memiliki multimodal, model audio, video. Sampai saat ini, mereka bahkan belum punya harness sendiri, yaitu kerangka kerja luar untuk panggilan model, integrasi alat, dan eksekusi tugas—meskipun mereka baru-baru ini mulai merekrut posisi terkait, untuk membangun sistem ini.

Sementara itu, DeepSeek tampaknya tetap teguh di posisi open source, bahkan sangat bersedia membagikan "rahasia" mereka secara terbuka. Bukankah ini gila? Bukankah seperti membakar uang sia-sia? Para investor yang bersiap menyuntikkan 10 miliar dolar ke mereka, apakah sedang membuang uang ke saluran pembuangan?

Menurut saya pribadi, jawabannya justru sebaliknya.

Selanjutnya, saya akan mengemukakan beberapa pengamatan berdasarkan apa yang telah dilakukan DeepSeek sejauh ini, dan menganalisis satu set strategi yang tampaknya mereka ikuti. CEO DeepSeek, Liang Wenfeng, mungkin memiliki tujuan yang jauh lebih besar dari sekadar kompetisi model saat ini. Ia mungkin menargetkan sebuah penghargaan yang lebih besar: DeepSeek berpeluang menembus valuasi 1 triliun dolar, sekaligus mendorong terbentuknya industri baru bernilai 10 triliun dolar.

Liputan TechInAsia tentang putaran pendanaan terbaru DeepSeek

Meninjau Kembali Perjalanan Pahlawan DeepSeek

DeepSeek selalu berjalan melawan arus. Mereka tidak memilih meluncurkan model yang sedikit lebih kuat secara bertahap, lalu buru-buru mengemasnya menjadi aplikasi yang langsung bisa monetisasi, seperti langganan pemrograman. Pada 27 Januari 2025, saya pernah menulis tweet yang sangat viral, menggambarkan "perjalanan pahlawan" DeepSeek menurut pandangan saya. Kini, cerita itu menjadi semakin menarik.

Ketika orang lain masih berusaha membangun model yang padat, DeepSeek memilih model campuran ahli (Mixture of Experts, MoE) yang lebih sulit dilatih.

Mereka menerapkan pendekatan "prinsip pertama", menciptakan algoritma baru bernama GRPO, sebagai pengganti algoritma pembelajaran penguatan PPO yang saat itu menjadi arus utama tetapi biaya implementasinya lebih tinggi.

Mereka menemukan bahwa pembelajaran penguatan berbasis reward yang dapat diverifikasi (Reinforcement Learning from Verified Rewards, RLVR) adalah strategi kunci untuk meningkatkan kemampuan inferensi model.

Mereka juga memperkenalkan strategi decoding sederhana bernama "Multi Token Prediction", yang membuat sinyal pelatihan lebih padat.

Mereka menyempurnakan pipeline "ZERO bubble" untuk meningkatkan efisiensi penggunaan sumber daya GPU terbatas.

Mereka merilis load balancer ahli, yang memudahkan orang lain dalam meng-deploy model MoE. Terutama melalui strategi "Wide Expert Parallel", model dapat melayani batch yang lebih besar, secara signifikan menurunkan biaya inferensi.

Mereka menciptakan mekanisme MLA, DSA, CSA, HCA, untuk mengurangi kebutuhan KV Cache, dan menjaga agar biaya komputasi yang meningkat seiring panjang konteks tetap mendekati konstan.

Mereka juga menciptakan Engram, yang memanfaatkan memori untuk meningkatkan efisiensi komputasi.

Selain itu, mereka mengembangkan mHC, agar model yang lebih besar tetap dapat dilatih secara stabil. Banyak lagi contoh serupa.

Dalam struktur naratif "perjalanan pahlawan" yang umum, pahlawan tidak pernah langsung tahu ke mana perjalanannya akan menuju sejak awal. Ia belajar sepanjang jalan, secara bertahap menemukan misi besar yang sesungguhnya, dan menyelesaikannya di tengah berbagai hambatan. Ia akan menghadapi banyak skeptis, tetapi memilih mengabaikan mereka. Ia juga akan berhadapan dengan aktor jahat. Ia memiliki kekurangan atau kelemahan yang jelas, tetapi akhirnya mampu mengatasi masalah tersebut dan menyelesaikan misi. Ia menghadapi tantangan yang tampaknya tak tertembus, tetapi mampu menemukan cara bersekutu dan belajar menggunakan sumber daya yang terbatas dan berharga secara bijaksana. Hal inilah yang membuat penonton ingin mendukung pahlawan. Inilah alasan mengapa DeepSeek mampu menarik pengikut, mendapatkan penghormatan global, dan menghadapi lawan.

Seperti yang akan saya jelaskan secara rinci berikutnya, DeepSeek sudah berjalan di jalur ini cukup lama, dan secara bertahap menemukan takdir utamanya: tujuannya bukan menjual langganan pemrograman, melainkan mendorong terbentuknya ekosistem hardware AI bernilai 10 triliun dolar di China, dan mencapai valuasi 1 triliun dolar sendiri. Dalam proses ini, mereka juga akan menciptakan peluang bagi banyak pemain baru di ekosistem hardware Barat.

Mari mulai dari beberapa perhitungan KV Cache yang menarik

Perhatikan tweet terbaru @SemiAnalysis_ yang sangat relevan ini:

DeepSeek sudah jauh lebih baik dalam menyelesaikan masalah ini daripada siapa pun!

Mari kita lakukan perhitungan menarik tentang KV Cache. Jangan khawatir, meskipun Anda tidak suka matematika, Anda tetap bisa mengikuti. Kita akan menggunakan kalkulator KV Cache terbaru untuk melihat berapa banyak penghematan KV Cache yang bisa diberikan oleh DeepSeek V4 Pro, dan membandingkannya dengan model-model terbaru GLM dan Qwen.

Di sini saya melakukan perhitungan dengan panjang konteks sekitar 1 juta, dengan asumsi presisi KV 8 bit, dan indeksor 16 bit. Anda juga bisa mencoba kalkulator ini sendiri: https://kvcache.ai/tools/kv-cache-calculator/

Anda juga bisa mencoba kalkulator ini sendiri!

Dalam konteks panjang sekitar 1 juta:

· DeepSeek V4 hanya membutuhkan 5,48GB HBM;
· GLM-5 membutuhkan 60GB HBM;
· Qwen3-235B-A22B bahkan membutuhkan hingga 89GB HBM.

Perlu diingat:

· DeepSeek adalah model dengan 1,6 triliun parameter;
· GLM-5 sekitar 700 miliar parameter, sudah mengadopsi MLA dan DSA dari DeepSeek, tetapi belum menggunakan mekanisme kompresi perhatian terbaru;
· Qwen3-235B-A22B sekitar 235 miliar parameter, menggunakan mekanisme perhatian GQA.

DeepSeek telah memberikan kontribusi dasar dalam mengurangi tekanan memori. Jika inovasi semacam ini diadopsi secara luas, biaya operasional agen jangka panjang akan turun secara signifikan, dan membuka peluang untuk aplikasi baru.

Perbandingan penggunaan KV Cache pada konteks 1 juta token dan skala model

Metodologi di balik "gila"

Ukuran KV Cache yang sangat kecil ini, sekaligus tidak mengorbankan kualitas model, adalah alasan utama DeepSeek mampu menyediakan cache jangka panjang dengan harga sangat rendah—harganya bahkan kurang dari 3% dari biaya cache hit Sonnet 4.6, dan DeepSeek bisa menyimpan cache selama berjam-jam.

Untuk tugas jangka panjang, KV Cache yang lebih kecil berarti bisa lebih ekonomis untuk dipindahkan ke SSD, dan dimuat ulang saat diperlukan. Dengan demikian, ketergantungan pada HBM bisa dikurangi. Dari sudut pandang industri hardware AI China, HBM tidak hanya langka dan sulit diproduksi, tetapi juga merupakan jenis memori yang paling kompleks.

Selain itu, DeepSeek juga mengembangkan teknologi untuk memuat KV Cache dari SSD lebih cepat, yang sudah dijelaskan dalam makalah Dual Path mereka.

DeepSeek V4 mampu melakukan kompresi KV Cache secara besar-besaran, sehingga langkah ini bahkan mungkin tidak lagi diperlukan.

Lalu, siapa yang paling diuntungkan dari kompresi KV Cache ini?

Siapa yang memproduksi SSD dalam skala besar? Jangan lupa, YMTC (Yangtze Memory Technologies) sedang berkembang menjadi raksasa di bidang NAND 3D. NAND dapat membantu DeepSeek menghindari perhitungan ulang KV. Sebaliknya, DeepSeek juga menciptakan pasar besar untuk NAND dan SSD—ini tidak hanya menguntungkan YMTC, tetapi juga produsen terkait lainnya.

Tapi, ini tidak hanya soal NAND dan SSD.

Memori LPDDR juga memiliki potensi besar. Ia bisa digunakan untuk menyimpan bobot model, dan saat diperlukan, bobot ini bisa dialirkan secara streaming ke HBM, mengurangi tekanan pada HBM. Tim SGLang pernah menulis blog yang sangat bagus tentang ini. Gambar berikut menunjukkan cara kerjanya.

Meskipun DeepSeek tidak secara khusus merancang untuk solusi ini, arsitektur MoE-nya, yang memiliki banyak model ahli, serta bobot 4 bit, membuat implementasi ini lebih mudah.

Diagram ini menunjukkan bagaimana memori bisa digunakan, dan bagaimana bobot model mengalir dari LPDDR ke HBM secara streaming. Sangat direkomendasikan membaca blog SGLang yang terkait.

Jika inovasi ini digabungkan dengan KV Cache yang sangat ringkas dan tanpa kehilangan, maka kebutuhan HBM bisa dikurangi secara signifikan.

Lalu, siapa produsen LPDDR di China? Jawabannya adalah CXMT, alias ChangXin Memory Technologies. Mereka hanya tertinggal sekitar setengah generasi dalam kecepatan LPDDR, dan satu generasi dalam kapasitas, jadi perbedaannya tidak besar.

Selain NAND yang cukup, ekosistem AI China dalam waktu dekat juga akan memiliki pasokan LPDDR yang cukup. Apakah ini bisa mengurangi tekanan komputasi? Jawabannya: bisa. Mari kita lanjutkan.

Penggunaan memori secara cerdas juga bisa mengurangi tekanan pada GPU / ASIC

Penggunaan NAND untuk menyimpan KV Cache sebenarnya cukup mudah dipahami: ini memungkinkan KV Cache bertahan lebih lama, mengurangi tekanan pada HBM, dan menghindari perhitungan ulang KV Cache, sehingga mengurangi beban komputasi GPU dan ASIC.

Lalu, apakah LPDDR juga bisa berperan serupa? Selain sebagai tempat streaming bobot ke HBM saat diperlukan, apakah ia bisa lebih jauh mengurangi beban komputasi?

Jawabannya: bisa.

LPDDR bisa digunakan untuk menyimpan sejumlah besar konten yang disebut Engram. Dalam makalah Engram mereka, DeepSeek menunjukkan bahwa MoE bisa memperluas kapasitas model melalui kalkulasi kondisional, tetapi Transformer sendiri kekurangan mekanisme "pencarian pengetahuan" asli. Oleh karena itu, Transformer sering harus meniru proses pencarian secara tidak efisien melalui kalkulasi.

Untuk mengatasi ini, DeepSeek memperkenalkan modul Engram. Mereka memodernisasi embedding N-gram klasik menjadi mekanisme pencarian berbasis hash O(1), menciptakan jalur sparsifikasi pelengkap yang mereka sebut sebagai memori kondisional (conditional memory).

Metode ini menghemat kalkulasi, tetapi membutuhkan memori untuk menyimpan tabel embedding, yang bisa sangat besar.

Intinya, ini adalah solusi "menggunakan memori untuk menukar kalkulasi". Tapi insight utama di sini adalah: dari sudut biaya baca data per bit, "memori" jauh lebih murah—satu pencarian LPDDR jauh lebih murah daripada menjalankan data lengkap melalui banyak lapisan Transformer untuk satu forward pass. Jadi, dalam skala besar, ini adalah pertukaran yang sangat menguntungkan.

Inilah cara DeepSeek mengorbankan sebagian memori demi penghematan kalkulasi.

Pertimbangan penting dalam pengambilan keputusan

Karena tidak ada chip dengan tingkat kepadatan transistor yang seimbang, dan tidak ada EUV, GPU dan ASIC China kemungkinan besar akan tetap tertinggal dari GPU Barat dalam hal FLOPs murni dalam jangka panjang. Mereka juga masih memiliki jarak yang cukup besar dalam hal kemasan canggih. Oleh karena itu, pilihan ini sangat layak dipertimbangkan, terutama jika China mampu memproduksi NAND dan LPDDR dalam jumlah besar.

Rekap Strategi Jangka Panjang DeepSeek

Dari inovasi-inovasi ini, tampaknya tujuan DeepSeek bukan sekadar meraih keuntungan miliaran dolar saat ini. Banyak pilihan yang mereka buat sejauh ini menunjukkan hal tersebut: mereka belum memiliki multimodal, suara, video, apalagi.

Yang mereka lakukan sebenarnya adalah sebuah permainan jangka panjang yang sabar, dengan skala yang mungkin mencapai 10 triliun dolar: mendorong terbentuknya ekosistem hardware AI alternatif.

Ini bukan hanya untuk menjadikan produsen memori China sebagai pemain kunci di pasar hardware AI global dan domestik, tetapi juga untuk secara fundamental menurunkan kebutuhan sumber daya, membuat pelatihan dan layanan model AI lebih hemat biaya. Dengan demikian, banyak produsen GPU, ASIC, dan chip jaringan bisa menjadi pilihan yang layak.

Selain itu, inovasi-inovasi ini juga akan menguntungkan ekosistem open source Barat dan produsen hardware generasi berikutnya.

Semua tanda-tanda sudah muncul. Mari kita tinjau kembali inovasi-inovasi yang telah diajukan DeepSeek sejauh ini:

  1. Perkenalan model campuran ahli (MoE) dan MLA di DeepSeek V2

DeepSeek memperkenalkan MoE dan MLA di V2. MoE mengurangi sekitar 40-50% beban kalkulasi untuk melatih model cerdas tinggi; MLA mengurangi KV Cache hingga 90%.

Ini membuat pengalihan KV Cache ke SSD menjadi sangat efisien.

Ide-ide ini pertama kali muncul dalam makalah DeepSeek V2 yang dirilis Mei 2024. Kemudian, mereka juga menjadi dasar pelatihan DeepSeek V3. Saat itu, DeepSeek hanya menggunakan 2048 GPU H800 yang dilemahkan performanya, tetapi sudah mampu melatih sistem yang performanya mendekati model tertutup.

  1. DSA: Diperkenalkan dalam DeepSeek V3.2 Exp, untuk mengurangi biaya kalkulasi di konteks panjang dan mengurangi tekanan bandwidth HBM.

Inti dari DSA adalah memastikan bahwa jumlah kalkulasi tidak terus meningkat seiring panjang konteks. Lihat grafik berikut: seiring bertambahnya panjang konteks, waktu proses DeepSeek-V3.2 tetap relatif stabil.

  1. mHC: Diajukan DeepSeek pada Desember 2025 dalam makalah "mHC: Manifold-Constrained Hyper-Connections".

mHC adalah inovasi arsitektur makro DeepSeek, yang merancang ulang aliran informasi antar lapisan Transformer.

Dulu, sejak ResNet, model biasanya menggunakan residual standar, yaitu x + F(x). Tapi mHC memperluas residual menjadi beberapa jalur paralel, dan memungkinkan model melakukan pencampuran yang dapat dipelajari antar jalur tersebut. Kuncinya, matriks pencampuran dibatasi sebagai matriks doubly stochastic, melalui proyeksi Sinkhorn-Knopp ke dalam Birkhoff polytope. Dengan cara ini, secara matematis, sinyal tetap stabil meskipun model sangat dalam.

Ini mengatasi masalah ketidakstabilan yang parah pada Hyper-Connections tanpa batas. Hyper-Connections pertama kali diusulkan ByteDance, tetapi tanpa batas, sinyal bisa membesar hingga 270 miliar parameter, meningkat 3000 kali lipat, dan akhirnya menyebabkan pelatihan gagal total.

Biaya komputasi mHC sangat rendah: hanya sekitar 6,7% dari total waktu pelatihan, karena tidak mengubah FLOPs lapisan perhatian atau FFN, hanya mengubah cara output lapisan tersebut dialirkan antar lapisan.

Tapi, peningkatan performa yang dihasilkan cukup signifikan: pada 270 miliar parameter, mHC meningkatkan skor 7,2 poin di tugas inferensi BIG-Bench Hard; 3,2 poin di DROP; 2,8 poin di tugas matematika GSM8K; dan 1,4 poin di tugas pengetahuan umum MMLU. Peningkatan ini terjadi dalam skala model dan anggaran kalkulasi yang hampir sama.

Intinya, mHC menyediakan topologi routing informasi antar lapisan yang lebih kaya dan ekspresif, sehingga secara efektif meningkatkan kecerdasan per parameter tanpa menambah FLOPs secara signifikan.

mHC adalah desain arsitektur yang kompleks, tetapi mampu memberikan proses pelatihan yang lebih stabil dan kecerdasan per parameter yang lebih tinggi.

  1. CSA, HSA: Diperkenalkan DeepSeek di V4 pada April 2026.

CSA dan HSA bertujuan mengurangi kebutuhan KV Token hingga 90% dengan kompresi KV Cache, sekaligus secara signifikan mengurangi FLOPs yang diperlukan, sehingga mengurangi tekanan pada HBM dan GPU/ASIC.

  1. Engram: Diperkenalkan DeepSeek pada kuartal pertama 2026, secara esensial menggunakan memori—yaitu LPDDR—untuk menukar efisiensi kalkulasi.

Gambar detail di bawah menunjukkan bahwa, dengan anggaran parameter yang sama, Engram memberikan peningkatan performa yang nyata.

  1. Engram: Diperkenalkan DeepSeek pada kuartal pertama 2026, secara esensial menggunakan memori—yaitu LPDDR—untuk menukar efisiensi kalkulasi.

Gambar detail di bawah menunjukkan bahwa, dengan anggaran parameter yang sama, Engram memberikan peningkatan performa yang nyata.

Ini adalah saran yang dibagikan DeepSeek kepada produsen hardware dalam makalah V4 mereka. Saya yakin, dalam diskusi langsung, mereka akan memberi lebih banyak feedback.

  1. Investasi di TileLang juga mengarah ke arah yang sama: DeepSeek tidak hanya menyelesaikan bottleneck daya komputasi mereka sendiri, tetapi juga mendorong ekosistem hardware China agar mampu bersaing dengan Barat.

Dengan TileLang, pengembang cukup menulis satu kernel dasar, yaitu kode inti untuk komputasi, dan kemudian menjalankannya di berbagai platform hardware, asalkan platform tersebut sudah didukung backend TileLang.

Saya perkirakan, laboratorium AI China lainnya juga akan bergabung secara bertahap. Ini akan membantu produsen hardware China secara tidak langsung melawan "CUDAburg". Selain itu, ini juga akan membuka potensi hardware Barat, seperti AMD.

Perlu dicatat, banyak platform hardware AI China sudah menyediakan kompatibilitas CUDA atau lapisan translasi CUDA. Contohnya, Morpheus, Muxi, Bairen, dan Tianshu Zhixin, semuanya menggunakan lapisan translasi untuk mencapai kompatibilitas CUDA yang tinggi. Secara teori, mereka tidak harus bergantung pada TileLang.

Pembelajaran penguatan skala besar dan RSI

Seiring DeepSeek mendapatkan lebih banyak sumber daya komputasi, yaitu hardware yang beragam, dan kebutuhan model terhadap sumber daya menurun, mereka bisa mendorong proyek pelatihan yang lebih ambisius, terutama pasca pelatihan.

Pembelajaran penguatan membutuhkan pembuatan banyak trajektori, yaitu triliunan token. Proses ini bisa sangat mahal dengan cepat. Lebih jauh lagi, jika ingin melatih model dengan konteks 1 juta, harus menghasilkan trajektori sepanjang itu juga. Hanya dengan melatih di trajektori yang sangat panjang ini, model bisa benar-benar mendukung tugas jangka panjang.

Selain itu, dengan semakin banyaknya opsi hardware, sumber daya yang bisa dipanggil DeepSeek juga akan lebih banyak, mendorong penelitian otomatisasi, yaitu RSI. RSI adalah AI yang mampu merancang dan menjalankan eksperimen sendiri. Pendekatan ini melibatkan banyak trial-and-error, dan biayanya akan meningkat pesat. Tapi, RSI sangat penting untuk menjelajahi seluruh ruang desain model. Sebelum mencapai AGI, dan kemudian ASI, DeepSeek harus menguasai RSI.

Apa yang DeepSeek lakukan hari ini, besok akan diikuti seluruh industri

Inovasi DeepSeek di bidang model campuran ahli, MLA, DSA, dan lainnya, sudah mulai diadopsi oleh laboratorium AI lain di seluruh dunia dan China.

Misalnya, pengembang model GLM dari ZAI menggunakan MLA dan DSA. Kimi, alias MoonShot, juga mengadopsi MLA dan secara terbuka menyatakan bahwa arsitekturnya didasarkan pada arsitektur DeepSeek. Sebaliknya, DeepSeek juga menggunakan optimizer Muon, yang awalnya digunakan Kimi (MoonShot) dalam pelatihan skala besar.

Perlu dicatat:

MoE pertama kali diperkenalkan Google pada 2017, dengan Noam Shazeer sebagai penulis utama. Kontribusi DeepSeek adalah menerapkan MoE secara skala besar dan menciptakan teknik pendukungnya sendiri.

Muon, yaitu MomentUm Orthogonalized by Newton-Schulz optimizer, diperkenalkan oleh peneliti machine learning Keller Jordan pada akhir 2024. Tim Kimi (MoonShot) adalah yang pertama menggunakannya dalam pelatihan skala besar.

Lalu, bagaimana dengan soal menghasilkan uang?

Kita bisa melihat contoh menarik dari OpenAI.

OpenAI mendapatkan hak opsi untuk membeli saham AMD dan Cerebras dengan harga lebih rendah, yang terkait dengan tonggak konsumsi daya mereka. Untuk AMD dan Cerebras, ini adalah transaksi yang sangat menguntungkan. Karena begitu OpenAI berkomitmen menggunakan hardware mereka, peluang keberhasilan jangka panjangnya akan meningkat secara signifikan.

Dalam pengumuman AMD tertulis:

"Sebagai bagian dari perjanjian, untuk lebih menyelaraskan kepentingan strategis kedua pihak, AMD menerbitkan hak opsi kepada OpenAI untuk membeli hingga 160 juta saham biasa AMD, yang akan di-vest secara bertahap sesuai pencapaian tonggak tertentu. Batch pertama akan di-vest saat instalasi 1 GW selesai, batch berikutnya akan di-vest seiring peningkatan pengadaan hingga 6 GW. Ketentuan vest juga terkait target harga saham tertentu dari AMD dan pencapaian tonggak teknologi serta bisnis yang diperlukan OpenAI untuk deployment massal AMD."

Saya perkirakan, DeepSeek juga akan menandatangani kesepakatan serupa dengan beberapa produsen memori, ASIC, CPU, dan stack teknologi jaringan di China, dan bekerja sama secara mendalam agar hardware mereka mampu menangani beban kerja AI terdepan.

Mengacu pada total kapitalisasi pasar saham AI Barat dan sekutu Timur Asia yang sudah jauh melampaui 10 triliun dolar, metode "mengambil bagian melalui kerjasama" ini akan memberi DeepSeek peluang membantu China membangun industri sebesar itu, dan mendapatkan bagian dari kue tersebut, akhirnya mencapai valuasi 1 triliun dolar sendiri.

Ini tidak hanya akan membuat DeepSeek mendapatkan keuntungan jauh melebihi bisnis langganan tradisional, tetapi juga mewujudkan misi mereka "membawa manfaat AGI untuk semua orang". Liang Wenfeng adalah penggemar Jim Simons dan pemain modal yang cukup cerdas, dia pasti tidak akan melewatkan peluang ini.

Jika Anda menengok kembali semua yang telah dilakukan DeepSeek sejauh ini, satu penjelasan paling masuk akal adalah ini.

Ini adalah saham AI utama. Diagram ini belum termasuk hyperscalers, yaitu perusahaan cloud skala besar, dan banyak perusahaan terkait lainnya.

[Link asli]

Klik untuk mengetahui lebih banyak tentang posisi Low-Tempo BlockBeats

Selamat bergabung dengan komunitas resmi Low-Tempo BlockBeats:

Telegram Langganan: https://t.me/theblockbeats

Telegram Grup Diskusi: https://t.me/BlockBeats_App

Akun resmi Twitter: https://twitter.com/BlockBeatsAsia

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 10
  • 1
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
ThereAreCatsInTheContract.
· 51menit yang lalu
Jadi DeepSeek adalah langkah dalam permainan yang lebih besar lagi
Lihat AsliBalas0
BlackGoldMechanicalHand
· 3jam yang lalu
10 triliun apakah target valuasi atau skala industri? Saya agak bingung
Lihat AsliBalas0
GateUser-26374bb4
· 3jam yang lalu
Pertarungan harga berakhir, pemenangnya adalah infrastruktur yang menguasai semuanya
Lihat AsliBalas0
PaperSculptureSquidward
· 3jam yang lalu
Akhirnya ada yang keluar dari kerangka evaluasi model untuk melihat masalahnya
Lihat AsliBalas0
GateUser-34d2b0ab
· 3jam yang lalu
Jika benar-benar dapat merombak dasar, maka aplikasi ini semua adalah kebutuhan palsu
Lihat AsliBalas0
SlippageSailor
· 3jam yang lalu
Jika ini benar, maka semua orang yang membeli token sekarang sedang membantu dia berlatih perang.
Lihat AsliBalas0
GlitchOrchard
· 3jam yang lalu
Sudut ini cukup menarik, sebelumnya memang hanya fokus pada lapisan aplikasi saja
Lihat AsliBalas0
ThetaSideEye
· 3jam yang lalu
Tunggu seluruh teksnya, pengantar ini benar-benar mampu membangun antisipasi.
Lihat AsliBalas0
SushiSlippage
· 3jam yang lalu
Diterjemahkan oleh Peggy? Kualitas BlockBeats selalu terjaga
Lihat AsliBalas0
ExitLiquidityBuddy
· 3jam yang lalu
Sepertinya perusahaan besar di dalam negeri semua mengikuti jalur ini, DeepSeek melangkah lebih cepat
Lihat AsliBalas0
Lihat Lebih Banyak
  • Disematkan