Lubang yang diajukan oleh David Cahn pada tahun 2023 belum pernah diisi di sisi pelatihan. Lubang itu diisi di sisi inferensi, dan pasar baru mulai memperhitungkannya dalam penetapan harga dalam beberapa minggu terakhir. Ketika Nvidia merestrukturisasi laporan keuangan seputar "token layanan", dan Cerebras IPO mendapatkan 20 kali lipat kelebihan permintaan, perdebatan tentang bottleneck telah berakhir, dan pertanyaan sebenarnya beralih ke yang berikutnya: ketika inferensi menjadi sumber daya langka, di lapisan mana nilai akan terkumpul dalam tumpukan daya komputasi.

Ikuti GPU: dari masalah 200 miliar dolar menjadi masalah 600 miliar dolar

Pada tahun 2023, David Cahn dari Sequoia mengajukan pertanyaan yang menggantung di seluruh pembangunan AI, yaitu "masalah 200 miliar dolar". Setiap kali membeli GPU seharga 1 dolar, sekitar 1 dolar lagi harus dihabiskan untuk memberi daya pada pusat data, sehingga setiap tahun CapEx GPU berarti chip ini harus menghasilkan sekitar 200 miliar dolar pendapatan agar modal tersebut kembali. Bahkan dengan asumsi pendapatan AI yang sangat murah hati, dia menemukan adanya lubang lebih dari 125 miliar dolar antara "investasi" dan "bayar pelanggan akhir yang sebenarnya". Kekhawatiran yang cukup langsung: GPU sedang dibangun secara berlebihan di atas kebutuhan nyata.

Setahun kemudian, celah itu tidak menyusut, malah membesar. Dalam kelanjutan tahun 2024, dengan membengkaknya CapEx dari produsen skala besar, dia mendefinisikan ulang sebagai "masalah 600 miliar dolar". Logika pesimis mengarah ke bentuk yang sudah dikenal: pembangunan berlebihan menyebabkan kelebihan pasokan, dan kelebihan itu akan membakar modal.

Kedua artikel sebenarnya bertanya hal yang sama: siapa yang akan mengisi lubang ini? Jawabannya tidak pernah muncul di buku besar sisi "pelatihan". Jawabannya muncul di sisi inference, dan pasar baru mulai memperhitungkannya dalam penetapan harga dalam beberapa minggu terakhir.

IPO Cerebras dan Tekanan Inferensi

Cerebras melakukan IPO pada hari Kamis. IPO ini mendapatkan 20 kali lipat kelebihan permintaan, dengan harga hampir dua kali lipat dari kenaikan akhir hari Rabu. Permintaan bukan berasal dari taruhan pada "pembunuh Nvidia berikutnya", melainkan dari sesuatu yang lebih sederhana: pasar mulai menyadari bahwa bottleneck sejati dalam AI adalah inference, bukan pelatihan.

Keunggulan Cerebras adalah arsitektur chip yang memungkinkan inferensi sangat cepat. Bukan pelatihan, melainkan inferensi. Ini adalah poin yang membuat Wall Street bersemangat. Pasar inference bersifat periodik, berkembang seiring peningkatan penggunaan. Setiap kali Claude menjawab pertanyaan, setiap kali agen menjalankan tugas, daya komputasi terkuras. Pelatihan hanya terjadi sekali, sementara inferensi tidak pernah berhenti.

J.P. Morgan memperkirakan skala pasar inference adalah 10 hingga 50 kali lipat dari pelatihan. Ketika mesin mulai menjalankan tugas yang diberikan oleh mesin lain, yaitu ekspansi berbasis agen, permintaan inference tidak lagi bertambah seiring jumlah pengguna, melainkan seiring daya komputasi itu sendiri.

Nvidia Menggambar Ulang Peta: Inferensi Menjadi Berita Utama

Jika Cerebras adalah kebangkitan pasar, maka laporan keuangan kuartal terbaru Nvidia adalah konfirmasi dari rantai industri di puncaknya. Dalam panggilan laporan keuangan terbaru, Jensen Huang menegaskan pernyataan yang sudah diketahui: permintaan AI sedang meningkat secara eksponensial. Alasannya sangat sederhana: AI berbasis agen telah tiba. AI utama telah beralih dari inferensi sekali pakai ke inferensi logika, dan kemudian ke tahap agen yang dapat memanggil alat dan mengatur tugas sendiri. Huang mengatakan, "Token sekarang menguntungkan." Dalam era AI, daya komputasi adalah pendapatan dan laba.

Ini merombak seluruh industri. Pelatihan adalah biaya sekali pakai untuk membangun model, sedangkan inferensi adalah biaya operasional yang berkelanjutan, dan bottleneck saat ini adalah inferensi, bukan pelatihan.

Nvidia memasukkan penilaian ini ke dalam laporan keuangannya sendiri. Sekarang mereka mengungkapkan melalui dua platform, bukan satu: Data Center (pusat data) dan Edge Computing (komputasi tepi). Data center (sekitar 75 miliar dolar per kuartal, +92% YoY) dibagi lagi menjadi Hyperscale (sekitar 38 miliar dolar, +12% QoQ) dan ACIE, yaitu AI cloud, industri, dan perusahaan (sekitar 37 miliar dolar, +31% QoQ). Garis baru adalah Edge Computing: 6,4 miliar dolar, +29% YoY, mencakup AI berbasis agen dan perangkat fisik yang menjalankan AI secara nyata, seperti PC, workstation, stasiun dasar AI-RAN, robot, dan mobil.

Saat ini, edge masih kurang dari 8% dari total pendapatan, tetapi Nvidia telah menempatkannya sejajar dengan data center sebagai "platform kedua". Sinyalnya adalah: inferensi sedang terpecah menjadi dua garis depan, yaitu inference cloud di data center dan inference endpoint di tepi, karena AI harus melihat, bergerak, dan bertindak di dunia fisik. Peta jalan mengikuti logika yang sama: mulai pengiriman Vera Rubin pada kuartal ketiga, dengan throughput inferensi hingga 35 kali lipat Blackwell; Huang juga memberikan angka baru untuk Vera CPU yang dirancang untuk beban kerja berbasis agen, yaitu TAM sebesar 200 miliar dolar. Setiap perusahaan model terdepan diperkirakan akan langsung beralih ke sana sejak hari pertama.

Ketika perusahaan dengan valuasi tertinggi di dunia mengumumkan restrukturisasi keuangan seputar "token layanan", perdebatan tentang bottleneck pun selesai. Bagian berikutnya dari artikel ini membahas siapa yang akan menangkap nilai ketika inference (bukan pelatihan) menjadi sumber daya langka.

Mari kita buat penjelasan ruang lingkup terlebih dahulu. Dalam kedua garis ini, artikel ini membahas inference cloud, yaitu layanan API token yang disewa dari pusat data GPU. inference endpoint berjalan di chip lokal perangkat itu sendiri (Nvidia Jetson, RTX, Drive, AI-RAN), tanpa melalui lapisan sewa dan agregasi GPU di bawahnya. Di sini, anggap saja sebagai penguatan ekonomi inference secara keseluruhan dan bukti teori bottleneck, bukan pasar yang diwakili oleh Hyperbolic dan Venice, yang sepenuhnya berada di garis cloud.

Tekanan sudah datang

Anthropic adalah burung kenari di tambang batu bara. Penggunaan jauh melebihi kapasitas yang dipasang sebelumnya, keluhan tentang Claude yang "dipotong otaknya" mendominasi seluruh internet, termasuk balasan yang dibatasi, inferensi yang melambat, dan konteks yang dipadatkan. Solusinya adalah kekuatan komputasi murni: pada Mei 2026, Anthropic mengambil alih seluruh pusat data Colossus 1 dari SpaceX, dengan lebih dari 220.000 GPU Nvidia dan 300+ megawatt daya, khusus untuk inference, bukan pelatihan.

Kapasitas ini membuka serangkaian perubahan batasan, setiap perubahan adalah sinyal. Pada 6 Mei, Anthropic menggandakan batas waktu Claude Code selama lima jam, menghapus pembatasan selama jam sibuk, dan meningkatkan batas API Opus secara signifikan. Pada 13 Mei, mereka meningkatkan batas mingguan Claude Code lagi sebesar 50% (hingga 13 Juli). Kemudian, mulai 15 Juni, mereka melakukan sesuatu yang berlawanan dengan "kedermawanan": memisahkan penggunaan berbasis agen dan otomatisasi (Agent SDK, mode headless claude -p, pipeline CI) dari langganan datar ke dalam kolam kredit terpisah (per bulan 20 hingga 200 dolar, dihitung berdasarkan harga API). Langkah terakhir ini merangkum seluruh argumen dalam satu tindakan: kecepatan konsumsi inference oleh agen jauh melebihi kapasitas langganan datar, sehingga harus dihargai sesuai biaya operasional aslinya.

Pelatihan adalah pengeluaran modal sekali pakai. inference adalah biaya operasional berkelanjutan, yang bertambah secara eksponensial dengan setiap pengguna baru dan agen baru.

Tumpukan ini: enam lapisan, satu bottleneck

Setiap aplikasi AI terletak di rantai pasokan yang dimulai dari pabrik wafer TSMC hingga ke endpoint API:

Kebanyakan perusahaan hanya memiliki satu lapisan. Nvidia memiliki chip silikon, CoreWeave memiliki sumber daya bare-metal, Together AI memiliki optimisasi inference, OpenRouter memiliki routing API model.

Hanya satu yang berbeda.

Hyperbolic: satu-satunya perusahaan yang melintasi tiga lapisan

Hyperbolic meluncurkan pasar GPU on-demand pada Juni 2025. Dalam beberapa bulan pertama, jumlah pengembangnya melampaui 200.000+, mencakup laboratorium AI terdepan, pencarian, dan platform konsumen besar.

Yang menarik adalah arsitekturnya.

Hyperbolic sendiri tidak memiliki satu GPU pun. Setiap kartu berasal dari neocloud dan pusat data, termasuk CoreWeave, Lambda Labs, Nebius, dan operator kecil yang memiliki kapasitas idle. Ini terdengar seperti kelemahan, tetapi sebenarnya adalah keunggulan kompetitif.

Dengan duduk di antara penyedia dan pengguna GPU, Hyperbolic dapat melihat data real-time yang tidak terlihat orang lain. Mereka tahu siapa yang membeli GPU dengan harga berapa, kapan, dan berapa banyak. Mereka melihatnya sebelum kelebihan pasokan menjadi publik, dan sebelum permintaan melonjak ke pasar.

Saat ini, keunggulan kompetitif itu sendiri adalah penggabungan multi-cloud. Hyperbolic menggabungkan kapasitas dari puluhan cloud dan pusat data menjadi satu kolam standar yang terstandardisasi, memungkinkan pengembang menyewa GPU termurah di mana saja tanpa harus bernegosiasi dengan setiap operator dan mengelola banyak akun. Semakin banyak cloud yang mereka akses, semakin dalam likuiditasnya, dan semakin kaya data penetapan harga yang mereka miliki. Ke depan, tim sedang menjajaki bagaimana menggunakan data ini untuk memodelkan kurva harga GPU, dan akhirnya menginvestasikan modal sendiri untuk menyeimbangkan pasokan dan permintaan, serta berperan sebagai market maker daya komputasi fisik; tetapi tujuan ini masih dalam tahap awal, dan yang benar-benar berkembang saat ini adalah lapisan penggabungan.

Inilah roda penggerak:

Menghubungkan lebih banyak cloud → Menambah pasokan yang digabungkan

Lebih banyak pasokan → Pasar yang lebih dalam dan data penetapan harga real-time

Data yang lebih baik → Routing yang lebih cerdas saat ini, dan model penetapan harga jangka panjang

Likuiditas dan harga yang lebih baik → Lebih banyak pengembang → Lebih banyak cloud yang ingin bergabung

Tidak ada perusahaan lain yang mencoba melakukan ini. Hyperbolic adalah satu-satunya perusahaan yang melintasi lapisan sewa GPU, lapisan deployment, dan lapisan API model secara bersamaan.

Venice sebagai cermin

Venice adalah manifestasi paling jelas dari ekonomi inference di tingkat aplikasi, dan juga perbandingan yang berguna dengan posisi Hyperbolic. Ini adalah aplikasi inference yang mengutamakan privasi: satu rangkaian API yang kompatibel dengan OpenAI, dengan langganan untuk konsumen (Free / Pro / Pro+ / Max), yang mengarahkan permintaan ke sekitar 75 model, dua pertiga di antaranya adalah model open-source atau self-hosted (Llama, Mistral, Qwen, DeepSeek), sisanya adalah model tertutup yang diakses secara anonim. Kunci utamanya adalah Venice sendiri tidak memiliki kekuatan komputasi yang berarti. Mereka menyewa dari mitra GPU yang tidak diumumkan dan penyedia komputasi rahasia (NEAR AI Cloud, Phala), dan membayar laboratorium terdepan untuk melakukan transparansi, sehingga biaya pendapatan mereka benar-benar berasal dari kekuatan inference, bukan dari SaaS hosting.

Yang mereka jual sebenarnya adalah privasi. "Privasi" di sini bukan mengubah kekuatan komputasi publik menjadi milik pribadi, tetapi membungkus inference komersial dengan jaminan: data tidak disimpan, tidak digunakan untuk pelatihan, permintaan dianonimkan, sebagian beban berjalan di dalam TEE, sehingga operator sendiri pun tidak bisa melihat plaintext. Infrastruktur dasar adalah komponen umum, dan premium yang mereka kenakan adalah lapisan privasi ini. Lapisan ini bersifat berlapis dan tidak homogen: untuk model open-source yang berjalan di perangkat yang dikontrol sendiri atau di GPU TEE, mereka bisa mendekati kalkulasi rahasia end-to-end; tetapi untuk model tertutup seperti Claude dan GPT, transparansi anonim hanya menghilangkan identitas, dan prompt asli tetap diproses di ujung laboratorium terdepan. Jadi, perlindungan privasi paling kuat hanya berlaku untuk bagian open-source, sedangkan bagian model tertutup adalah "anonim" bukan "rahasia sejati". Margin Venice = harga langganan dikurangi biaya inference yang mereka bayarkan ke hilir, dan bagian yang mereka bisa kenakan lebih dari harga API mentah hampir seluruhnya didukung oleh lapisan privasi ini, yang juga menjadi alasan mengapa mereka berpendapatan tipis dan terbatas oleh harga transparansi model terdepan.

Desain token ini membungkus kebutuhan inference tersebut. Venice berjalan di dua token: VVV (staking dan akses platform) dan DIEM, yang merupakan kredit inference, di mana satu DIEM kira-kira setara dengan daya komputasi satu dolar per hari. Langganan berbayar memicu pembelian kembali dan pembakaran VVV secara programatis (Pro / Pro+ / Max masing-masing sekitar 2 / 5 / 10 dolar), dan emisi VVV berkurang secara tetap sesuai jadwal: 6 juta per bulan → 5 juta → 4 juta VVV, dan turun menjadi 3 juta mulai 1 Juli. Pembelian kembali ini nyata, tetapi bersifat diskresioner dan kecil: di bulan April dan Mei, sekitar 103.000 dolar dibakar, dan di Juni perlahan mendekati 110.000 dolar, jauh di bawah garis 200.000 dolar per bulan.

Fundamentalnya lebih sehat dari judulnya. Angka "7 juta dolar ARR" yang beredar hampir pasti salah menganggap perpanjangan langganan sebagai akuisisi pelanggan baru bersih; kisaran yang dapat diamati secara wajar adalah sekitar 6 juta hingga 15 juta dolar ARR. Di bawah ini, traksi nyata: sekitar 136.000 alamat dompet token, sekitar 9,9 juta kunjungan situs web per bulan (sekitar 330.000 per hari), dan penambahan langganan Pro sekitar 1.400 per hari. Ini adalah bisnis nyata, tetapi bisnis yang tipis, dan ekonomi bisnis ini terbatas oleh daya komputasi yang mereka beli.

Inilah alasan Hyperbolic berada di lapisan di atasnya. Jika Venice adalah stasiun pengisian bahan bakar, maka Hyperbolic adalah kilang minyak. Venice membeli daya komputasi dari pasokan terbatas yang diandalkan semua orang; Hyperbolic menggabungkan dan menstandardisasi pasokan fragmentasi tersebut, lalu menjualnya ke Venice dan semua pemain serupa. Seiring meningkatnya permintaan inference, nilai tidak hanya terkumpul pada aplikasi yang menggunakan daya komputasi, tetapi juga pada penggabungan dan pengaturan rute daya, serta menangkap lapisan biaya pendapatan yang dibayar oleh aplikasi tersebut.

Mengapa ini penting saat ini

Nvidia merestrukturisasi keuangannya seputar "token layanan". IPO Cerebras membuktikan pasar sudah memahami bahwa inference adalah bottleneck. Anthropic berjuang untuk kapasitas, membuktikan ini adalah masalah nyata. agentic dan physical AI akan memperbesar permintaan beberapa kali lipat, melintasi garis cloud dan tepi.

Dan ini juga menutup lingkaran dari "masalah 600 miliar dolar". Logika pesimis Cahn, yaitu pembangunan berlebihan dan kelebihan pasokan, kemungkinan besar akan terbukti benar. Tetapi kelebihan pasokan justru merupakan kondisi pasar optimal bagi penggabung aset berwawasan ringan: ketika harga GPU turun, dan pasokan tersebar di puluhan cloud, pemain yang tidak memiliki perangkat keras apa pun dan hanya mengarahkan beban kerja ke GPU termurah akan mendapatkan selisih harga, sementara operator yang memegang GPU yang terus menurun nilainya akan menanggung kerugian. Hyperbolic adalah pemain yang bertaruh pada kelebihan pasokan, bukan yang bertaruh melawannya.

Perusahaan yang akhirnya akan menang bukanlah yang memiliki GPU terbanyak, tetapi yang mampu memberi tahu di mana GPU tersedia, dengan harga berapa, dan mengarahkan setiap beban kerja ke tempat yang paling murah biayanya.

Hyperbolic sedang membangun perusahaan seperti itu. Tidak memiliki GPU sendiri, hanya perangkat lunak, meliputi tiga lapisan, tetapi menjadi lapisan penggabungan daya inferensi yang paling akhir.

VVV-7,29%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

1 Suka