Apakah Teknologi TurboQuant Baru Google Menandakan Akhir dari Micron?

Setahun lebih sedikit yang lalu, sebuah dana lindung nilai kuantitatif dari Tiongkok yang beralih menjadi lab AI merilis model AI canggih bernama DeepSeek. Meskipun ada perdebatan mengenai seberapa murah dan di chip apa DeepSeek dilatih, tidak ada keraguan bahwa DeepSeek menerapkan inovasi-inovasi baru yang sangat meningkatkan efisiensi melatih model AI dengan lebih sedikit dan semikonduktor yang “kurang bagus”.

Saham semikonduktor dan memori AI anjlok tajam setelah kabar tersebut, berdasarkan kesan permukaan bahwa perusahaan AI tidak akan perlu membeli begitu banyak chip logika dan memori. Namun, kita semua sekarang tahu bahwa saham-saham ini kemudian memantul lagi, bahkan lebih dari itu, karena efisiensi model yang lebih tinggi tidak menghambat permintaan chip. Sebaliknya, perusahaan AI menggunakan keuntungan efisiensi itu untuk berinvestasi pada model yang bahkan lebih canggih, sehingga meningkatkan permintaan total akan komputasi dan memori.

Minggu lalu, Alphabet (GOOG +5.02%) (GOOGL +5.10%) Google Research merilis TurboQuant, sebuah teknologi kompresi memori AI berbasis perangkat lunak yang memungkinkan inferensi yang jauh lebih efisien dengan memori yang lebih sedikit. Sebagai respons, perusahaan-perusahaan memori besar seperti Micron (MU +4.80%) dan para pemasoknya juga melepas sahamnya secara tajam.

Namun, apakah ini hanya momen DeepSeek lain yang harus dibeli investor?

Perluas

NASDAQ: MU

Micron Technology

Perubahan Hari Ini

(4.80%) $15.46

Harga Saat Ini

$337.26

Poin Data Utama

Kapitalisasi Pasar

$381B

Rentang Harian

$311.50 - $337.70

Rentang 52 Minggu

$61.54 - $471.34

Volume

3.1M

Vol Rata-rata

40M

Margin Kotor

58.54%

Imbal Hasil Dividen

0.18%

Apa itu TurboQuant?

TurboQuant secara signifikan meningkatkan kapasitas dan mempercepat cache key-value (KV cache) dalam inferensi AI. KV-cache adalah jenis memori yang memungkinkan algoritma AI mempertahankan konteks sebelumnya tanpa menghitung ulang semua token sebelumnya untuk menghasilkan token-token baru. KV-cache, oleh karena itu, adalah semacam “cerita” dari output AI sebelumnya.

Namun jika KV-cache adalah “cerita” dari konteks masa lalu, TurboQuant adalah “ringkasan” cepat namun akurat dari cerita itu.

Dalam istilah awam, TurboQuant bekerja seperti ini. Sebuah model AI memahami konteks dengan menyimpan data sebagai vektor, atau bagan multidimensi dengan beberapa “embedding”, yaitu titik-titik dalam sumbu X-Y-Z. Sebuah token dengan vektor yang mirip dengan token lain berarti token tersebut memiliki hubungan yang mirip.

Untuk menyederhanakan, mari asumsikan bidang X-Y. Jadi satu embedding mungkin ditentukan oleh arah “maju tiga kotak ke timur dan empat kotak ke utara”.

TurboQuant menyederhanakan perintah-perintah itu dengan mengatakan, “maju lima kotak pada 37 derajat ke timur laut.” Ini sangat mengurangi komputasi yang dibutuhkan untuk memahami konteks, meskipun bisa menimbulkan kesalahan yang tersisa. Tetapi lalu TurboQuant menambahkan mekanisme koreksi kesalahan 1-bit yang membersihkannya. Bahkan dengan bit tambahan, teknik ini menggunakan jauh lebih sedikit memori dibanding metode standar koordinat XYZ untuk vektor AI.

Akibat koreksi kesalahan tersebut, klaim Google Research bahwa TurboQuant dapat meningkatkan kapasitas KV-cache hingga enam kali, sekaligus membuat inferensi AI delapan kali lebih cepat – semuanya tanpa kehilangan akurasi.

TurboQuant mendorong inferensi AI. Sumber gambar: Getty Images.

Bagaimana TurboQuant akan memengaruhi memori AI

Jika inferensi AI dapat menggunakan DRAM enam kali lebih sedikit dan berjalan delapan kali lebih cepat, maka pemikirannya adalah bahwa mungkin akan ada kebutuhan memori yang lebih kecil pada aplikasi inferensi di masa depan.

Tampaknya agak terlalu sederhana, meskipun ada skenario risiko yang masuk akal. Salah satu risikonya adalah pangsa pasar inferensi AI bisa bergeser dari GPU mahal dengan memori bandwidth tinggi (HBM) ke CPU yang menjalankan “memori server” “tradisional” seperti DDR5 atau MRDIMM.

HBM jauh lebih cepat dibanding jenis memori yang lebih lama ini, tetapi kapasitasnya memuat konteks lebih sedikit dan biayanya jauh lebih mahal. Karena peningkatan kecepatan KV cache delapan kali lipat dari TurboQuant, sebuah perusahaan yang kini ingin menggunakan banyak agen AI yang melakukan inferensi pada jumlah data besar, seperti dokumen hukum 1.000 halaman, mungkin dapat menerapkan DDR5 atau MR-DIMM dengan lebih efektif. Meski HBM juga akan dipacu oleh TurboQuant, bentuk memori yang lebih lama yang digunakan CPU bisa menjadi “cukup cepat” untuk perusahaan besar yang ingin menurunkan biaya.

HBM telah menjadi salah satu faktor utama dalam krisis pasokan memori saat ini, karena untuk memproduksi satu bit HBM dibutuhkan tiga sampai empat kali lebih banyak peralatan dibanding “memori tradisional”. Jadi, ada kemungkinan bahwa saat permintaan bergeser ke memori tradisional untuk inferensi, pasar memori tidak akan lagi begitu terkendala pasokannya.

Namun kisah bullish kemungkinan lebih besar

Walaupun TurboQuant menghadirkan potensi risiko bagi pasar HBM—yang menyerap sebagian besar pasokan industri—investor ini masih berpikir bahwa skenario bullish lebih mungkin terjadi.

Pertama, HBM juga akan mendapat peningkatan dari TurboQuant, dengan memungkinkan inferensi berbasis HBM memiliki jendela konteks yang lebih besar. Jadi inferensi AI tidak akan sepenuhnya berpindah ke CPU atau memori tradisional. Untuk aplikasi yang membutuhkan latensi super cepat, HBM kemungkinan masih akan digunakan sampai batas tertentu.

Selain itu, HBM masih menjadi jenis memori utama untuk pelatihan model AI, dan TurboQuant tidak memengaruhi hal itu. Walaupun inferensi akan menjadi pasar yang lebih besar di masa depan, permintaan HBM untuk pelatihan kemungkinan masih akan terus meningkat. Mengingat saat ini kita masih sangat kekurangan pasokan HBM, dan karena TurboQuant bahkan belum diterapkan di luar lab Google, perusahaan memori akan punya waktu untuk menyesuaikan pertumbuhan pasokannya.

Namun penyesuaian pasokan mungkin bahkan tidak diperlukan, karena paradoks Jevon dapat berlaku untuk TurboQuant sebagaimana yang terjadi pada DeepSeek. Paradoks Jevon menyatakan bahwa ketika sebuah proses menjadi lebih efisien, alih-alih menggunakan masukan yang lebih sedikit, permintaan justru meningkat untuk sumber daya tersebut, sebab efisiensi yang lebih tinggi membuka adopsi dan lebih banyak kasus penggunaan.

Mengingat sebagian besar perusahaan teknologi teratas percaya bahwa kita masih berada di awal era AI, jika TurboQuant mempercepat laju perusahaan dan konsumen memasukkan AI ke dalam bisnis mereka, gelombang peningkatan permintaan itu seharusnya mengangkat semua kapal.

Kesimpulannya, aksi jual memori ini bisa menjadi peluang. Meskipun Micron dan saham peralatan modal semikonduktor terkait masih sangat naik sepanjang tahun lalu, “kekhawatiran” ini bisa menjadi kesempatan untuk menambah atau membeli posisi awal, jika Anda melewatkan kenaikan selama tahun sebelumnya.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan