أجدت جدًا قصة NVIDIA مع Groq. بشكل أساسي، ما شرحه Huang Renxun الآن يتوافق مع استراتيجية منطقية جدًا.



بدأ الأمر لأن سوق الاستدلال تغير. سابقًا، كان الجميع يركز على شيء واحد فقط: زيادة الإنتاجية، معالجة المزيد من الطلبات في نفس الوقت. لكن بعد ذلك أدرك الناس أن الأمر ليس دائمًا كما يبدو في الممارسة العملية. بعض المستخدمين مستعدون لدفع أكثر مقابل استجابات أسرع، بغض النظر عن الحجم الإجمالي.

إنه مثل هذا: لديك نموذجان متطابقان، لكن أحدهما يرد خلال 50 مللي ثانية والآخر خلال 500 مللي ثانية. إذا كنت مهندسًا تطور تطبيقًا في الوقت الحقيقي، كم ستدفع أكثر مقابل الذي هو أسرع بعشر مرات؟ نعم، سوق انخفاض الكمون مختلف تمامًا عن سوق الإنتاجية العالية.

هنا تدخل Groq في الصورة. معماريتهم LPU مخصصة تمامًا لهذا، للكمون الثابت المنخفض. بينما تهيمن وحدات معالجة الرسومات من NVIDIA على جانب الإنتاجية الضخمة، تملأ Groq فجوة مختلفة تمامًا. عندما تنظر إلى Groq 3 LPU الذي صدر في مارس، المصنوع بتقنية 4 نانومتر من سامسونج، فإن قدرة الاستدلال لكل ميغاواط في نماذج تريليونية أفضل بـ 35 مرة من Blackwell NVL72. هذا ليس شيئًا بسيطًا.

ما يقوله Huang بشكل أساسي هو أن NVIDIA أدركت أن سوق الاستدلال ليس سوقًا واحدًا، بل هناك قطاعان مميزان بديناميكيات تسعير مختلفة تمامًا. يمكنك أن يكون لديك إنتاجية أقل، لكن إذا كان سعر الوحدة لكل رمز أعلى بكثير، فهذا مجدي. إنه مثل توسيع حدود باريتو للسوق.

هذه كانت خطوة مدروسة جدًا من NVIDIA، في الواقع. لقد أدركوا فجوة وذهبوا وراءها. يواصل Jonathan Ross وفريق Groq العمل بشكل مستقل، لكن الآن مع كل وزن NVIDIA وراءهم. يبدو أن أحدًا يفكر أخيرًا في الاستدلال بطريقة أكثر تطورًا.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت