Đây là sự phân chia trong điện toán AI mà ít người đọc đúng.


Huấn luyện tiên phong đang tập trung hơn mỗi quý, hàng nghìn GPU phải đặt cùng một chỗ và kết nối với nhau. Nhưng huấn luyện chỉ chiếm 30% nhu cầu vào năm 2026. 70% còn lại là suy luận, và chạy nó trên một hyperscaler có nghĩa là trả tiền cho hạ tầng được xây dựng cho khối lượng công việc khó nhất để thực hiện công việc dễ nhất.
Trên các mạng phân tán, cùng suy luận đó có thể chạy rẻ hơn 45-75% và đối với bất kỳ ai đang lên ngân sách hạ tầng AI, khoảng cách đó là toàn bộ câu chuyện.
Huấn luyện tập trung hóa vì cần thiết. Suy luận phân mảnh vì trả tiền theo biên lợi nhuận của AWS cho một khối lượng công việc không cần chúng sẽ trở nên vô lý ở quy mô lớn.
Xem bản gốc
post-image
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Retweed
Bình luận
Thêm một bình luận
Thêm một bình luận
Không có bình luận
  • Đã ghim