OpenAI Menemukan Metode Baru untuk Mengurangi Biaya Inferensi hingga Setengahnya

robot
Pembuatan abstrak sedang berlangsung
Menurut sumber yang akrab dengan diskusi tersebut, ada berita yang sebelumnya tidak diungkapkan: awal bulan ini, para insinyur OpenAI memberi tahu beberapa kolega bahwa, dengan mengandalkan beberapa teknologi optimasi yang baru dikembangkan, mereka telah menemukan solusi yang dapat mengurangi biaya inferensi model hingga lebih dari setengahnya. Setelah menerapkan teknologi baru ini pada skenario di mana pengunjung akun gratis/berbayar menggunakan ChatGPT, jumlah unit pemrosesan grafis (GPU) Nvidia yang diperlukan berkurang menjadi hanya beberapa ratus — angka yang sangat rendah. Saat ini tidak jelas apa cara teknis spesifik yang digunakan OpenAI untuk mencapai peningkatan efisiensi komputasi yang signifikan ini. Metode optimasi umum di industri umumnya meliputi: kompresi kuantisasi, caching kunci-nilai, pemrosesan batch pertanyaan pengguna daripada menghitungnya satu per satu, dan mengarahkan beberapa permintaan ke model atau fragmen model ringan yang lebih rendah daya untuk respons.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan