Perplexity nền tảng suy luận mã nguồn mở pplx-garden, vượt qua thuế mạng của Nvidia để đạt truyền thông đa card tốc độ cao

robot
Đang tạo bản tóm tắt
ME AI Thông báo, theo theo dõi Beating, công cụ hạ tầng suy luận hiệu suất cao dùng trong môi trường sản xuất của công cụ tìm kiếm khổng lồ Perplexity AI chính thức mở nguồn dự án pplx-garden. Dự án cốt lõi là thư viện truyền thông điểm-đến-điểm hiệu suất cao do tự phát triển bằng Rust tên là fabric-lib (còn gọi là TransferEngine), nhằm phá vỡ liên kết phần cứng độc quyền của giao thức truyền thông của NVIDIA, giúp các nhà phát triển thực hiện chạy siêu nhanh các mô hình lớn hàng nghìn tỷ tham số trên cụm đa GPU không đồng nhất mà không cần mua các switch mạng đắt tiền riêng biệt. Truy vấn mô hình phân tán truyền thống cực kỳ phụ thuộc vào mạng truyền thông tốc độ cao độc quyền của NVIDIA, dẫn đến chi phí triển khai phần cứng rất cao và gặp phải khóa chuỗi cung ứng. fabric-lib đã thực hiện loại bỏ liên kết phần cứng ở cấp độ phần cứng, không chỉ phù hợp hoàn hảo với card mạng NVIDIA ConnectX-7 mà còn hỗ trợ gốc các card mạng Ethernet truyền thống giá rẻ của AWS EFA của Amazon, giúp băng thông mạng giữa nhiều card tăng trực tiếp lên đến 400 Gbps. Để khắc phục nhược điểm vật lý của truyền dữ liệu theo thứ tự sai của AWS EFA, Perplexity đã sáng tạo ra cơ chế đồng bộ bộ đếm ImmCounter, cho phép thực hiện luồng dữ liệu hiệu quả "không sao chép" mà không cần giả định cứng nhắc về thứ tự gói dữ liệu. Thư viện truyền thông tích hợp thuật toán phân phối dữ liệu dành riêng cho mô hình chuyên gia hỗn hợp MoE, đồng bộ hóa dữ liệu nhận của card đồ họa với tính toán ma trận, tối đa hóa khả năng tính toán trong giai đoạn giải mã. Trong thực tế sản xuất, pplx-garden mang lại hiệu quả kỹ thuật rất rõ rệt. Trong kiến trúc suy luận tách rời, thư viện mạng đã thực hiện điều phối cực nhanh bộ đệm khóa-giá trị giữa các nút Prefill và Decoder. Trong huấn luyện học tăng cường bất đồng bộ, chỉ mất 1,3 giây để hoàn tất đồng bộ và phân phát trọng số của mô hình hàng nghìn tỷ tham số. Để giải quyết độ trễ tính toán trong giai đoạn phân đoạn từ, pplx-garden đã mở nguồn công cụ phân đoạn pplx-unigram được viết lại bằng Rust, giảm tiêu thụ CPU trực tiếp gấp 5 đến 6 lần, loại bỏ điểm nghẽn hiệu suất trong phân đoạn của mô hình vector và sắp xếp lại. (Nguồn: BlockBeats)
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • 3
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
GlassDomeRoaming
· 4giờ trước
pplx-unigram giảm tiêu thụ CPU 5-6 lần, phân đoạn từ cuối cùng không còn là điểm nghẽn vô hình nữa, trước đó đã phân tích để biết mức độ phi lý.
Xem bản gốcTrả lời0
RefrigeratorMagnetContract
· 4giờ trước
400Gbps băng thông trông thật đã, nhưng fabric-lib bỏ đi ràng buộc phần cứng mới thực sự giải phóng vận hành.
Xem bản gốcTrả lời0
GateUser-3e7da866
· 4giờ trước
MoE phân phối dữ liệu và tính toán chồng chéo, tỷ lệ sử dụng phần cứng đạt mức tối đa, ý tưởng thiết kế này đáng để đọc kỹ mã nguồn.
Xem bản gốcTrả lời0
  • Đã ghim