Red Hat dan insinyur Tesla bekerja sama mengoptimalkan kinerja inferensi Llama 3.1 70B.

ME News berita, 23 April (UTC+8), Red Hat dan insinyur Tesla baru-baru ini bekerja sama untuk melakukan optimasi terhadap masalah di lingkungan produksi nyata. Dengan menggabungkan penggunaan proyek KServe, LLM-D, dan vLLM, mereka mencapai peningkatan signifikan dalam kinerja inferensi pada model Llama 3.1 70B, di mana jumlah token output per detik meningkat 3 kali lipat dan waktu token pertama meningkat 2 kali lipat. Selama proses kerja sama, perbaikan terkait telah didorong ke upstream proyek KServe. Artikel ini menganggapnya sebagai contoh kolaborasi open source. (Sumber: InFoQ)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan