Red Hat dan insinyur Tesla berkolaborasi mengoptimalkan kinerja inferensi Llama 3.1 70B.

robot
Pembuatan abstrak sedang berlangsung
ME News消息,4月23日(UTC+8),红帽与特斯拉的工程师近日合作,针对实际生产环境中的问题进行了优化。
Melalui kombinasi penggunaan proyek KServe, LLM-D, dan vLLM, mereka mencapai peningkatan signifikan dalam performa inferensi pada model Llama 3.1 70B, di mana jumlah token output per detik meningkat 3 kali lipat dan waktu token pertama meningkat 2 kali lipat.
Selama kerja sama, perbaikan terkait telah dikirim ke hulu proyek KServe. Artikel ini menganggapnya sebagai contoh kolaborasi sumber terbuka.(Sumber: InFoQ)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan