Отже, у мережі поширюються цікаві новини про Groq щодо стратегічного кроку NVIDIA у сфері інференції. Виявляється, Дженсен Хуанг щойно розкрив справжнє мислення за тим, чому вони спершу звернули увагу на Groq.



Минулого грудня NVIDIA витратила $20 мільярдів доларів на придбання бізнесу інференційних чипів Groq. Засновник Джонатан Росс та його основна команда перейшли до NVIDIA, але ось у чому справа — Groq досі працює незалежно. Потім, на GTC цього минулого березня, вони показали чип Groq 3 LPU, побудований на 4-нм процесі Samsung. Показники продуктивності досить вражаючі: у 35 разів вища пропускна здатність інференції на мегават у трильйонних моделях порівняно з NVIDIA Blackwell NVL72.

Але те, що справді привернуло мою увагу, — це пояснення Хуанга щодо ринкової динаміки, яка це рухає. Він говорить про те, як ринок інференції розділяється на різні сегменти. Протягом років усі зосереджувалися на одному: максимізувати пропускну здатність. Але це змінюється. Економіка токенів зазнала кардинальних змін. Різні користувачі тепер цінують різні швидкості відповіді по-різному, і готові платити відповідно.

Хуанг чітко пояснив: якщо ви можете надати розробникам швидше реагуючі токени, що робить їх більш продуктивними, вони заплатять преміальні ціни за цю можливість. Це відносно новий ринок, який з’явився лише нещодавно. Він фактично розширює фронтир Парето — додаючи сегмент з низькою затримкою і вищою ціною за токен поруч із існуючими рішеннями з високою пропускною здатністю.

Саме тут входить архітектура LPU від Groq. Вона побудована для детермінованої низької затримки, що майже протилежно тому, на що орієнтовані GPU. GPU чудово справляються з пропускною здатністю. Тому придбання Groq фактично заповнює прогалину у стратегії продуктів NVIDIA. Ви можете запускати одну й ту саму модель двома способами: максимально використовувати пропускну здатність на GPU або досягти ультра-низької затримки на LPU від Groq. Різні моделі ціноутворення для різних випадків використання.

Ця новина про Groq справді підкреслює, як ринок AI-інференції стає зрілішим і виходить за межі простої обчислювальної потужності. Йдеться про розуміння того, що насправді потрібно різним клієнтам, і створення правильних інструментів для кожного сегмента. Досить розумний хід, якщо запитати мене.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити