Gartner: Biaya melakukan penalaran pada model bahasa besar akan menurun lebih dari 90% pada tahun 2030

MaticHoleFiller · 2026-04-01T01:48:47+00:00

Menurut Gartner, pada tahun 2030, biaya melakukan inferensi pada model bahasa besar (LLM) dengan parameter triliunan akan turun lebih dari 90% dibandingkan tahun 2025, yang akan menghemat biaya besar bagi penyedia kecerdasan buatan generatif (GenAI).Token AI adalah satuan data yang diproses oleh model kecerdasan buatan generatif. Dalam analisis ini, satu token setara dengan 3,5 byte data, yaitu sekitar 4 karakter.Will Sommer, analis senior Gartner, mengatakan: “Penurunan biaya ini akan didukung oleh peningkatan efisiensi semikonduktor dan infrastruktur, inovasi dalam desain model, peningkatan pemanfaatan chip, penggunaan lebih banyak chip inferensi khusus untuk tujuan tertentu, serta penerapan perangkat edge dalam skenario tertentu.”Karena tren-tren ini, Gartner memprediksi bahwa pada tahun 2030, besar

MaticHoleFiller

2026-04-01 01:48:47

Menurut Gartner, pada tahun 2030, biaya untuk melakukan inferensi pada model bahasa besar (LLM) dengan skala triliunan parameter akan turun lebih dari 90% dibandingkan tahun 2025, sehingga penyedia artificial intelligence (GenAI) akan menghemat biaya secara besar.

Token AI adalah unit data yang diproses oleh model AI generatif. Dalam analisis ini, satu token setara dengan 3,5 byte data, yaitu sekitar 4 karakter.

Gartner analis senior Will Sommer mengatakan: “Penurunan biaya ini akan berkat berbagai faktor, termasuk peningkatan efisiensi semikonduktor dan infrastruktur, inovasi dalam desain model, peningkatan pemanfaatan chip, penggunaan yang lebih luas untuk chip inferensi khusus untuk tujuan tertentu, serta penerapan perangkat tepi (edge) pada skenario tertentu.”

Akibat dampak tren-tren ini, Gartner memprediksi bahwa pada tahun 2030, efektivitas biaya LLM akan mencapai hingga 100 kali lebih tinggi dibandingkan model awal dengan skala setara yang dikembangkan pada tahun 2022.

Hasil model prediksi dibagi menjadi dua kelompok skenario semikonduktor:

Skenario terdepan: data simulasi yang diproses oleh model berdasarkan chip-chip mutakhir.

Skenario hibrida tradisional: data simulasi yang diproses oleh model berdasarkan kombinasi semikonduktor yang ada, yang dievaluasi dengan mengacu pada data prediksi dari firma konsultan Gartner.

Dalam skenario prediksi “hibrida”, biaya yang dihitung secara nyata lebih tinggi dibandingkan skenario “terdepan”.

Skenario prediksi biaya inferensi untuk artificial intelligence umum

Penurunan biaya tidak akan membuat teknologi pintar terdepan menjadi umum

Namun, penurunan harga token bagi penyedia layanan AI generatif tidak sepenuhnya diteruskan kepada pelanggan perusahaan. Selain itu, jumlah token yang dibutuhkan untuk aplikasi cerdas terdepan akan jauh melampaui aplikasi arus utama saat ini. Misalnya, jumlah token yang dibutuhkan model agen untuk menyelesaikan setiap tugas adalah 5 hingga 30 kali lipat dibandingkan chatbot AI generatif standar, dan mampu menjalankan lebih banyak tugas daripada yang diselesaikan manusia dengan AI generatif.

Walaupun biaya unit token yang lebih rendah akan membuat AI generatif yang lebih canggih memiliki kemampuan yang lebih kuat, kemajuan tersebut akan menyebabkan kebutuhan akan token meningkat secara signifikan. Karena kecepatan konsumsi token lebih cepat daripada laju penurunan biaya token, total biaya inferensi diperkirakan akan meningkat.

Sommer mengatakan: “Para Chief Product Officer (CPO) tidak boleh mencampuradukkan penurunan nilai token yang diperdagangkan dengan demokratisasi inferensi tingkat lanjut. Ketika biaya teknologi pintar yang diperdagangkan mendekati nol, sumber daya komputasi dan sistem yang mendukung inferensi tingkat lanjut masih sangat langka. CPO yang saat ini menutupi masalah inefisiensi arsitektur dengan token murah, besok akan kesulitan untuk memperluas skalabilitas secara otonom.”

Platform yang mampu mengoordinasikan pemrosesan berbagai beban kerja dari berbagai model akan memperoleh nilai. Tugas-tugas yang biasa dan berfrekuensi tinggi harus dialokasikan ke model bahasa yang lebih kecil dan lebih efisien yang ditargetkan untuk domain tertentu, karena model-model tersebut dapat menyelesaikan tugas alur kerja khusus dengan performa yang lebih baik pada biaya yang hanya sebagian kecil dari solusi umum. Inferensi berbiaya tinggi dari model tingkat terdepan harus dibatasi secara ketat, dan secara khusus digunakan untuk tugas yang berprofit tinggi serta penalaran yang kompleks.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

2 Suka