Araştırma ekibini DeepSeek V3/R1 çıkarımını ilerlettikleri için tebrik ederiz.
NVIDIA GB200 NVL72 üzerinde, her GPU başına 26k giriş token/s ve 13k çıkış token/s hızına ulaşıyorlar — H100'e kıyasla neredeyse 4× / 5× hız artışı.
Bunu NVFP4 MoE, FP8 dikkat, uzman paralelliğini ölçeklendirerek başardılar.
View Original