Red Hat hợp tác với các kỹ sư Tesla để tối ưu hóa hiệu suất suy luận của Llama 3.1 70B.

ME News tin tức, ngày 23 tháng 4 (UTC+8), kỹ sư của Red Hat và Tesla gần đây đã hợp tác để tối ưu hóa các vấn đề trong môi trường sản xuất thực tế. Bằng cách kết hợp sử dụng các dự án KServe, LLM-D và vLLM, họ đã đạt được sự cải thiện đáng kể về hiệu suất suy luận trên mô hình Llama 3.1 70B, trong đó số lượng token đầu ra mỗi giây tăng gấp 3 lần, thời gian token đầu tiên cải thiện gấp 2 lần. Trong quá trình hợp tác, các bản sửa lỗi liên quan đã được đẩy ngược lên dự án KServe. Bài viết coi đây là một ví dụ điển hình về hợp tác mã nguồn mở. (Nguồn: InFoQ)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim