Google memperbarui penetapan harga API Gemini Menghitung biaya berdasarkan tingkat penggunaan inferensi

Google baru-baru ini memperbarui tingkat penagihan API Gemini, dengan solusi optimalisasi dan penetapan harga yang didasarkan pada kebutuhan penggunaan inferensi nyata. Tingkat layanan inferensi baru yang ditambahkan meliputi: Standar(Standard), Fleksibel(Flex), Prioritas(Priority), Batch(Batch), dan Cache(Caching). Di antaranya, tingkat inferensi fleksibel memanfaatkan sumber daya komputasi idle di luar jam sibuk, menawarkan diskon 50% dari tarif standar, dengan target latensi 1 hingga 15 menit, tetapi tanpa jaminan latensi. Tingkat API batch juga menawarkan diskon 50% dari tarif standar, dengan latensi maksimum hingga 24 jam. Tingkat cache dihitung berdasarkan jumlah token(Token) dan durasi penyimpanan, direkomendasikan untuk chatbot yang menjalankan instruksi sistem kompleks, analisis berulang file video panjang, serta pencarian dalam kumpulan dokumen skala besar. Penetapan harga tingkat prioritas lebih tinggi 75% hingga 100% dari harga standar, dengan latensi yang dapat dikendalikan dalam milidetik hingga detik. Google menyarankan tingkat ini digunakan untuk chatbot layanan pelanggan real-time, deteksi penipuan secara langsung, dan asisten cerdas penting bisnis.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan