Các kỹ sư của Red Hat và Tesla hợp tác tối ưu hóa hiệu suất suy luận của Llama 3.1 70B.

robot
Đang tạo bản tóm tắt
ME News tin tức, ngày 23 tháng 4 (UTC+8), các kỹ sư của Red Hat và Tesla gần đây đã hợp tác để tối ưu hóa các vấn đề trong môi trường sản xuất thực tế.
Bằng cách kết hợp sử dụng các dự án KServe, LLM-D và vLLM, họ đã đạt được cải thiện đáng kể về hiệu suất suy luận trên mô hình Llama 3.1 70B, trong đó số token đầu ra mỗi giây tăng 3 lần, thời gian token đầu tiên tăng 2 lần.
Trong quá trình hợp tác, các bản sửa lỗi liên quan đã được đẩy lên thượng nguồn cho dự án KServe. Bài viết coi đây là một ví dụ điển hình về hợp tác mã nguồn mở. (Nguồn: InFoQ)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim