Chúc mừng đội nghiên cứu đã tiến bộ trong suy diễn DeepSeek V3/R1.
Trên NVIDIA GB200 NVL72, họ đạt được 26k token đầu vào/s và 13k token đầu ra/s mỗi GPU — tốc độ nhanh hơn gần 4× / 5× so với H100.
Họ đã đạt được điều này với NVFP4 MoE, chú ý FP8, giảm quy mô song song chuyên gia
Xem bản gốc