Ini adalah model kelas menengah, yang "paling produktif" di seri Sonnet. Dalam tes agen SWE-bench Pro, ia mencetak 63,2 poin—hanya selisih 6 poin dari flagship Opus 4.8 yang meraih 69,2 poin. Di dimensi lain, dalam tes penalaran tingkat pascasarjana GPQA-AAA v2, Sonnet 5 justru mengungguli Opus 4.8.

Harga lebih krusial. Selama masa promosi, biaya per juta token input adalah $2, output $10. Harga Opus 4.8 masing-masing $5 dan $25—Sonnet 5, dengan harga 40% hingga 60% dari Opus 4.8, mampu mencapai lebih dari 90% kemampuan flagship.

Berita ini bisa dibaca dengan dua cara.

Cara pertama: AI semakin murah. Penurunan biaya menguntungkan semua orang, perang Chatbot berlanjut, dan model-model saling bersaing mati-matian.

Cara kedua—dan ini yang sedang dipasarkan—semakin murah model, semakin mahal daya komputasi dan penyimpanan.

Pada hari perilisan Claude Sonnet 5, indeks semikonduktor AS naik hampir 4%. Dalam narasi AI tiga tahun terakhir, ada satu garis jelas: efisiensi penalaran akan menghancurkan permintaan chip. Namun, penilaian ini salah di setiap titik data.

Penurunan Harga: Turun Seribu Kali Lipat Dalam Tiga Tahun

Pertama, lihat garis penurunan harga.

Pada 2022, biaya panggilan API level GPT-4 sekitar $0,03 per seribu token. Pada 2025, harga model dengan tingkat kinerja setara—menurut Stanford AI Index Report—turun sekitar 280 kali lipat. Ditambah efek gabungan dari open source dan peningkatan efisiensi, industri secara umum mengakui penurunan sebesar 1000 kali lipat.

Bukan hanya satu model yang turun, semua model turun.

Kali ini, Sonnet 5 dari Anthropic menargetkan kepadatan kemampuan setara Opus 4.8, tetapi harganya hanya 40% hingga 60%. Google Gemini Omni Flash menghasilkan video dengan biaya $0,10 per detik, model gambar Nano Banana 2 Lite menghasilkan gambar dalam 4 detik, hanya $0,034 per seribu gambar—setengah dari generasi sebelumnya. DeepSeek-V4-Pro menekan biaya per juta token input menjadi $0,035.

Penurunan harga tidak hanya terjadi di daftar harga.

Pada 24 Juni, The Information melaporkan bahwa OpenAI menemukan teknik optimalisasi perangkat lunak murni di internal—kebutuhan GPU untuk satu tahap komputasi berkurang lebih dari setengah, kumpulan GPU khusus turun drastis dari ribuan unit menjadi ratusan unit. Bulan yang sama, Meta mengusulkan skema Vistara: menggunakan kembali memori DDR4 dari server pensiunan melalui chip CXL buatan sendiri, dikombinasikan dengan DDR5 dengan rasio 3:1, menekan biaya server inferensi hingga 25%.

Pada 30 Juni, Jiyue merilis teknologi decoding spekulatif JetSpec—kecepatan inferensi model besar dapat ditingkatkan hampir 10 kali lipat. Jika dikonversi, untuk jumlah output token yang sama, jumlah GPU yang dibutuhkan bisa turun drastis satu orde.

Jika AI adalah fungsi biaya-permintaan tradisional, sinyal-sinyal ini seharusnya menunjukkan satu hal: chip yang dibutuhkan di masa depan akan lebih sedikit.

Wall Street khawatir seperti ini.

Pada akhir pekan ketika DeepSeek merilis R1 pada Januari, saham infrastruktur AI mengalami aksi jual paling hebat dalam beberapa tahun terakhir. Harga saham perusahaan AI cloud Nebius anjlok 40%. Ceritanya sederhana: model open source China menjual token seharga $0,1, perusahaan AS membayar $2, permintaan daya komputasi pasti runtuh.

Ledakan: Total Pengeluaran Justru Naik 320%

Namun, yang sebenarnya terjadi justru sebaliknya.

Roman Chernin, salah satu pendiri Nebius, kemudian mengenang: minggu ketika DeepSeek memicu kepanikan, "mungkin minggu penjualan terbaik kami." Departemen pembelian perusahaan, setelah melihat biaya turun drastis, reaksi pertama bukan memotong anggaran, melainkan akhirnya bisa menjalankan inferensi dalam skala besar.

Pada 2024, total pengeluaran global perusahaan untuk AI generatif sekitar $11,5 miliar. Pada 2025, angka ini melonjak menjadi $37 miliar—naik 320% dalam setahun. Menurut survei perusahaan oleh Menlo Ventures, perusahaan median menjalankan "puluhan" aplikasi AI pada 2025, sementara pada 2023 hanya 1 hingga 2.

Data dari berbagai dimensi berada pada kurva yang sama:

Uber pada April 2026 sudah menghabiskan seluruh anggaran AI tahunannya. AT&T saat ini memproses 27 miliar token per hari—18 bulan lalu, angkanya 800 juta. Sebuah perusahaan asuransi kesehatan besar AS, konsumsi token bulanan melonjak dari 3 juta menjadi lebih dari 150 juta.

Jika diurai, pertumbuhan berasal dari tiga arah yang bertumpuk.

Pertama, difusi aplikasi. Departemen pemasaran di setiap perusahaan menggunakan 3 alat AI, departemen penjualan 4, layanan pelanggan 2, ditambah hukum, SDM, keuangan—dari 2 menjadi puluhan, ini lompatan orde.

Kedua, kedalaman aplikasi tunggal. Ambil contoh AI layanan pelanggan: pada 2023, interaksi harian sekitar 500 kali, masing-masing sekitar 800 token, berakhir setelah percakapan. Pada 2025, interaksi harian 15.000 kali, masing-masing sekitar 4500 token, setiap interaksi memicu 3 hingga 5 inferensi lanjutan—analisis sentimen, prediksi eskalasi, penilaian kualitas—semua ditumpuk pada satu pintu masuk yang sama.

Ketiga, peningkatan kompleksitas model itu sendiri. Dari model putaran tunggal 7B parameter, meningkat menjadi agen penalaran multi-langkah di atas 70B, konsumsi token dalam setiap putaran inferensi internal puluhan hingga ratusan kali lipat dari interaksi linier.

Dengan kata lain, biaya token turun menjadi seperseribu, jumlah token yang digunakan pasar naik puluhan ribu kali lipat. Efek bersih dari perkalian hanya satu arah: ledakan pengeluaran.

Konsumsi token berlipat ganda setiap dua bulan—beberapa jalur independen menghasilkan angka yang sama. Jika kurva eksponensial ini digambar hingga 2027, pengeluaran tahunan perusahaan untuk AI menembus $100 miliar adalah soal aritmatika, bukan prediksi.

Transmisi: Penyimpanan Naik Enam Kali Lipat, Infrastruktur Chip Mengarah ke $7,6 Triliun

Permintaan yang dirangsang oleh penurunan harga tidak berhenti di lapisan perangkat lunak.

Kenaikan harga memori adalah sinyal paling langsung dari transmisi permintaan AI dari lapisan model ke lapisan perangkat keras.

Sejak kuartal ketiga 2025, harga spot DRAM dan NAND Flash secara kumulatif naik lebih dari 300%. Harga chip DDR5 dalam satu bulan sempat menembus kenaikan 90%. Memasuki 2026, kenaikan tidak hanya berhenti, malah semakin cepat.

Pada kuartal pertama 2026, kenaikan harga kontrak DRAM direvisi naik dari perkiraan 55%-60% menjadi 90%-95%; NAND dari 33%-38% menjadi 55%-60%. Pada kuartal kedua, prediksi TrendForce adalah DRAM naik 58%-63%, NAND 70%-75%.

Dengan produk konsumen sebagai acuan: Kit DDR5 32G 6000 Acer Predator, pada akhir Oktober 2025 masih di harga 1300 yuan, pada Januari 2026 sudah melonjak menjadi 2700 yuan. Tiga bulan berlipat ganda, sangat jarang di pasar barang konsumen.

Bisnis memori Samsung mencatat laba operasional kuartalan tertinggi sepanjang sejarah pada kuartal keempat 2025—menembus 20 triliun won, sekitar 96,2 miliar yuan. Dan pendorong paling fundamental dari kenaikan ini selama lebih dari setahun bukan dari siklus upgrade konsumen ponsel atau PC, melainkan pembelian besar-besaran HBM, SSD enterprise, DRAM kepadatan tinggi oleh pusat data AI.

Laporan Goldman Sachs pada Mei memperkirakan hal ini hingga ekstrem.

Laporan memprediksi total belanja modal kumulatif infrastruktur AI global dari 2026 hingga 2031 sekitar $7,6 triliun. Pada 2026 saja $765 miliar, naik menjadi $1,6 triliun pada 2031. Di antaranya, satu GPU dasar (berdasarkan NVIDIA VR200 Rubin) dihitung $80.500, NVIDIA menyumbang 75% dari total belanja daya komputasi setiap periode.

Goldman Sachs juga menanyakan pertanyaan kunci dalam laporan: Jika ASIC (chip khusus) menggantikan GPU dalam jumlah besar, apakah bisa mengurangi total permintaan?

Jawabannya tergantung situasi. Jika permintaan tidak elastis—permintaan daya komputasi AI perusahaan tetap—penggantian ASIC dapat langsung mengurangi total kebutuhan modal. Namun, jika permintaan elastis—semakin murah daya komputasi, semakin banyak dibeli—perubahan komposisi chip terutama membentuk kembali distribusi keuntungan antar pemasok, bukan skala total pengeluaran.

Skenario dasar Goldman Sachs memilih yang terakhir.

Harga saham AS juga bergerak ke arah yang sama. Sandisk naik 857% sejak awal tahun, Bernstein dalam laporan 30 Juni menaikkan target harga menjadi $3000. AMD naik 7% dalam sehari mencapai rekor tertinggi sepanjang masa. Yang membuat GPU, penyimpanan, kemasan, peralatan pusat data—semua mendekati level tertinggi baru.

Angka paling berdampak dalam artikel ulasan Edgen.tech pada 11 Juni adalah: harga chip memori naik enam kali lipat dalam setahun terakhir.

Label "pemulihan siklus" tidak pas. Sesuatu yang naik enam kali lipat, di baliknya ada kebutuhan seluruh sistem ekonomi yang menetapkan ulang harga infrastruktur fisik AI.

Akar: Jevons Sudah Menjawab pada 1865

William Stanley Jevons menulis buku berjudul "The Coal Question" pada 1865.

Pengamatan intinya: setelah Watt menyempurnakan mesin uap, konsumsi batu bara per unit turun drastis, namun total konsumsi batu bara Inggris justru naik, bukan turun. Karena peningkatan efisiensi berarti tenaga uap menjadi terjangkau di lebih banyak industri—tekstil, kereta api, pertambangan, pelayaran—setiap skenario baru menciptakan permintaan batu bara yang sebelumnya tidak ada.

160 tahun kemudian, formula yang sama terulang pada daya komputasi AI.

Perusahaan telah menghitung. Pada harga token tahun 2022, percakapan layanan pelanggan real-time inferensi secara ekonomi tidak layak. Skenario non-darurat tidak layak menjalankan AI. Pembuatan konten personalisasi hanya bisa dilakukan pada level segmen, bukan level pengguna. Pada 2025, harga turun 1000 kali lipat, "permintaan yang sebelumnya tidak ada" ini semuanya menjadi kebutuhan pokok.

Chernin dari Nebius memberikan ringkasan paling langsung: "Setiap kali kita membuat unit kecerdasan yang sama menjadi lebih murah, kita tidak mengurangi konsumsi, tetapi meningkatkan konsumsi—karena anggaran yang sama bisa menyelesaikan tugas yang lebih kompleks."

Pasar melewatkan dorongan struktural lainnya: umpan balik positif dari margin kotor.

Kurva margin kotor inferensi AI tidak memiliki padanan dalam sejarah. Perusahaan yang menyediakan API, pada tahap awal margin mungkin hanya 10%—pelatihan model mahal, inferensi mahal. Namun, optimalisasi perangkat lunak (fusi operator, kuantisasi, decoding spekulatif) menekan biaya inferensi setiap bulan, sementara penyesuaian harga selalu tertinggal. Akibatnya, margin naik dari 10% ke 90% lebih cepat daripada industri tradisional mana pun.

Margin kotor mendorong laba, laba mendorong pembelian tambahan, pembelian meratakan biaya—lingkaran umpan balik positif, tanpa batasan.

"Anda punya DRAM, Anda bisa menjual token; tanpa DRAM, Anda tidak bisa menjual token." Kalimat ini menjadi persamaan dasar permintaan chip AI.

Dua asumsi sensitivitas dalam laporan Goldman Sachs juga memperkuat penilaian yang sama. Jika umur ekonomi chip menyusut dari 5 tahun menjadi 3 tahun, siklus penggantian dipercepat, kebutuhan modal kumulatif langsung naik level. Jika memori per chip 25% lebih tinggi dari perkiraan—terutama mengubah distribusi pengeluaran di dalam tumpukan chip, dampak bersih pada total $7,6 triliun terbatas, tetapi arahnya sama: uang tidak akan berkurang.

Akhir: Siapa yang Memegang Daya Komputasi?

Pencabutan larangan ekspor Fable 5—dilarang pada 12 Juni, dicabut pada 30 Juni, hanya tiga minggu—memberi catatan kaki tak terduga pada paradoks ini.

Alasan larangan adalah "risiko keamanan nasional." Pencabutan larangan tidak ada hubungannya dengan hilangnya risiko—munculnya alternatif. Tim Asia seperti Tulongfeng berhasil meluncurkan model mendekati level Mythos selama masa larangan, daya gentar blokade dengan cepat menjadi nol. Pencabutan adalah realitas, bukan niat baik.

Episode ini tepat berada pada garis utama paradoks penurunan biaya AI: model dapat digantikan. Dari GPT ke Claude ke DeepSeek ke model open source, tidak ada yang bisa memonopoli kemampuan AI itu sendiri—ada yang membuat hambatan, ada yang mencari jalan pintas.

Perangkat keras tidak mengikuti logika ini.

GPU tidak. DRAM tidak. Siklus pembangunan pabrik wafer diukur dalam tahun. Kapasitas produksi mesin litografi tetap. Elastisitas pasokan silikon kemurnian tinggi hampir nol. Semua ini adalah hukum fisika, bukan strategi bisnis. Optimasi perangkat lunak dapat menekan biaya model seribu kali lipat, tetapi tidak dapat menekan satu hari pun dari siklus pembangunan pabrik wafer.

Titik akhir dari penurunan harga model AI, jika paradoks ini terus berjalan, tidak menuju ke de-komputasi—melainkan ke pemusatan kembali kekuatan penentuan harga komputasi. Tidak peduli model siapa yang Anda gunakan, token harus berjalan di atas chip seseorang. Setiap sen yang dipotong model dalam persaingan harga, pada akhirnya menjadi pendapatan di buku besar pusat data, pabrik wafer, dan lini produksi penyimpanan. Semakin gencar penurunan biaya, semakin tidak dapat diubah perpindahan ini.

Peringatan Risiko dan Ketentuan Tanggung Jawab

        Pasar mengandung risiko, investasi harus hati-hati. Artikel ini tidak merupakan saran investasi pribadi, juga tidak mempertimbangkan tujuan investasi, kondisi keuangan, atau kebutuhan khusus pengguna individu. Pengguna harus mempertimbangkan apakah pendapat, pandangan, atau kesimpulan dalam artikel ini sesuai dengan situasi khusus mereka. Investasi berdasarkan ini adalah tanggung jawab sendiri.

DRAM-8,41%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
GateCompletesDividendDistribution
135,77K Popularitas
#
StrategyBuybackSurges12%
1,27M Popularitas
#
IsraelStrikesIranBTCPlunges
67,28K Popularitas
#
PredictWorldCupShare20000U
545,16K Popularitas
#
TrumpDisclosesOver100MBTCETH
3,83M Popularitas

Disematkan

peta situs

Semakin murah AI, semakin mahal chip.

Penurunan Harga: Turun Seribu Kali Lipat Dalam Tiga Tahun

Ledakan: Total Pengeluaran Justru Naik 320%

Transmisi: Penyimpanan Naik Enam Kali Lipat, Infrastruktur Chip Mengarah ke $7,6 Triliun

Akar: Jevons Sudah Menjawab pada 1865

Akhir: Siapa yang Memegang Daya Komputasi?

Topik Trending

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

Disematkan