Вітаємо дослідницьку команду з досягненнями у вдосконаленні глибокого пошуку V3/R1.
На NVIDIA GB200 NVL72 вони досягають 26 тис. вхідних токенів/с та 13 тис. вихідних токенів/с на один GPU — майже 4× / 5× прискорення в порівнянні з H100.
Вони досягли цього за допомогою NVFP4 MoE, FP8 уваги, зменшення паралелізму експертів.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
13 лайків
Нагородити
13
7
Репост
Поділіться
Прокоментувати
0/400
MEVSupportGroup
· 4год тому
Чотири рази підвищити, це ж занадто сильно!
Переглянути оригіналвідповісти на0
shadowy_supercoder
· 4год тому
Це ж надто жорстко.
Переглянути оригіналвідповісти на0
DefiOldTrickster
· 4год тому
Старий чоловік звик до великих вітрів і хвиль, GPU також може за одну секунду до місяця!
Вітаємо дослідницьку команду з досягненнями у вдосконаленні глибокого пошуку V3/R1.
На NVIDIA GB200 NVL72 вони досягають 26 тис. вхідних токенів/с та 13 тис. вихідних токенів/с на один GPU — майже 4× / 5× прискорення в порівнянні з H100.
Вони досягли цього за допомогою NVFP4 MoE, FP8 уваги, зменшення паралелізму експертів.