في 18 فبراير بتوقيت بكين، قدم ماسك وفريق XAI إصدار Grok3 الجديد بث مباشر.
قبل حتى بدء هذا الحدث، وبفضل العديد من المعلومات ذات الصلة التي تم الكشف عنها، بالإضافة إلى التسويق المكثف على مدار 24 ساعة من قبل ماسك نفسه، جعلت التوقعات العالمية حول Grok3 تصل إلى مستويات غير مسبوقة. قبل أسبوع واحد فقط، عبر ماسك عن ثقته الكاملة خلال بث مباشر حول DeepSeek R1، وأشار إلى أن 'XAI سيطلق نماذج AI أفضل قريبًا'.
من البيانات المعروضة، يبدو أن Grok3 قد تفوقت بالفعل على جميع النماذج الرئيسية الحالية في اختبارات الرياضيات والعلوم والبرمجة، وصرّح ماسك حتى أن Grok 3 ستستخدم في مهمة الفضاء إلى المريخ التابعة لشركة SpaceX وتتوقع "تحقيق اختراق على مستوى جائزة نوبل خلال ثلاث سنوات".
لكن هذه حاليًا مجرد رأي واحد من ماسك فقط. بعد الإصدار، قمت بتجربة أحدث إصدار بيتا من Grok3 وطرحت تلك السؤال الكلاسيكي الذي يستخدم لإثارة صعوبات النماذج الكبيرة: 'أيهما أكبر، 9.11 أم 9.9؟'
من المؤسف أن غروك3، الذي يُدعى بأنه الأذكى حتى الآن دون أي صفة أو إشارة، لا يزال غير قادر على الإجابة الصحيحة على هذا السؤال.
GROK3 لم يتعرف بدقة على معنى هذه المشكلة | المصدر الصورة: جيك بارك
بعد إصدار هذا الاختبار، لفت انتباه العديد من الأصدقاء بسرعة خلال وقت قصير، وليس هذا فحسب، بل وجدت هناك العديد من الاختبارات الشبيهة في الخارج، مثل "أي كرة ستسقط أولاً من برج بيزا المائل" وهذه الأسئلة الأساسية في الفيزياء/الرياضيات، وقد تم اكتشاف أن Grok3 لا يستطيع التعامل معها بعد. ولذلك، أطلق عليه لقب "العباقرة لا يرغبون في الإجابة على الأسئلة البسيطة".
ظهرت العديد من مشكلات المعرفة في اختبار Grok3 العملي "تعثر" | المصدر الصورة: X
بالإضافة إلى هذه الاختبارات التي قام بها المستخدمين بشكل تطوعي، تم اكتشاف العديد من الأخطاء الأساسية في Grok3. خلال بث مباشر لحدث xAI، قام ماسك بتقديم عرض لاستخدام Grok3 لتحليل الوظيفة والتأثيرات الرفيعة لـ Path of Exile 2 (، الذي يدعي أنه يلعبه بانتظام. ومع ذلك، كانت معظم الإجابات التي قدمها Grok3 خاطئة. ولم يلاحظ ماسك هذه المشكلة الواضحة خلال البث المباشر.
ظهر Grok3 في البث المباشر أيضًا مع وجود أخطاء كبيرة في البيانات | المصدر الصور: X
لذلك، أصبحت هذه الخطأ ليس فقط دليلاً على سخرية المستخدمين الأجانب مرة أخرى من ماسك للعبة 'البحث عن شخص محترف'، ولكن أيضًا وضعت علامة استفهام كبيرة مرة أخرى على موثوقية Grok3 في التطبيق العملي.
بالنسبة لهذا النوع من 'العباقرة'، فإن موثوقية استخدامها في مهام استكشاف المريخ المعقدة للغاية مثل هذه، بغض النظر عن قدرتها الفعلية، يجب أن تكون محل شك كبير.
حاليا، يشير العديد من الذين حصلوا على تأهيل اختبار Grok3 قبل عدة أسابيع، وكذلك أولئك الذين استخدموا قدرات النموذج لبضع ساعات فقط أمس، إلى استنتاج واحد حول أداء Grok3 الحالي:
"Grok3 جيد لكنه ليس أفضل من R1 أو o1-Pro"
"Grok3 جيد لكنه ليس أفضل من R1 أو o1-Pro" | المصدر الصورة: X
في الإصدار الرسمي لـ Grok3 PPT، تم تحقيق "الريادة بشكل بعيد" في ساحة منافسة الروبوتات الكبيرة Chatbot Arena، ولكن هذا يتطلب أيضًا بعض الحيل الصغيرة في رسم الرسوم البيانية: تم عرض فقط تصنيفات النقاط من 1400 إلى 1300 على المحور الرأسي للجدول، مما يجعل الفارق الذي كان يبلغ 1% في نتائج الاختبار يبدو واضحًا بشكل استثنائي في عرض الـ PPT هذا.
تأثير "الريادة بمراحل" في الشرائح الرسمية | المصدر الصور: X
أداء النموذج الفعلي يظهر أن Grok3 فقط بفارق أقل من 1-2 ٪ مقارنة بـ DeepSeek R1 و GPT4.0: وهذا يعني أن العديد من المستخدمين لا يلاحظون فارقًا واضحًا في الأداء أثناء الاختبار الفعلي.
في الواقع، يبلغ تصنيف Grok3 الفعلي فقط 1%-2% أعلى من اللاحق | المصدر الصورة: X
بالإضافة إلى ذلك، على الرغم من تفوق Grok3 من حيث النقاط على جميع النماذج المعروضة حاليا في الاختبار العام، إلا أن هذا الأمر لا يُقدر من قبل الكثيرين: بعد كل شيء، كان xAI يحصل على نقاط عالية في هذه القائمة منذ عصر Grok2، ومع تخفيض النقاط بشكل كبير بسبب تقليل وزن طول وأسلوب الإجابة، فقد اعتبر غالبا من قبل المحترفين في الصناعة أنه 'نقاط عالية وقليلة من القدرة'.
سواء كان ذلك في قائمة النقاط أو في "الحيل" التصميمية للصور، يظهر xAI وإصرار ماسك نفسه على "التفوق البعيد" في قدرات النموذج.
وبالنسبة لهذه الفارق، فإن الثمن الذي دفعه ماسك لا يقل عن ذلك: في المؤتمر الصحفي، أعرب ماسك بتهكم تقريبي عن استخدام 200 ألف بطاقة H100 (وقال ماسك في بث مباشر "أكثر من 100 ألف") لتدريب Grok3، مع إجمالي ساعات التدريب تصل إلى ملياري ساعة. هذا جعل بعض الناس يعتقدون أن هذا يعتبر إيجابيًا بشكل كبير لصناعة وحدات معالجة الرسومات، ويرون أن الاهتزاز الذي يسببه DeepSeek في الصناعة هو "سخيف".
يعتقد العديد من الناس أن تجميع القوة الحسابية سيكون مستقبل تدريب النماذج | المصدر الصور: X
ولكن في الواقع، قام أحد الأشخاص على الإنترنت بمقارنة استخدام 2000 جهاز H800 لمدة شهرين لتدريب DeepSeek V3، وحسب الحسابات، فإن استهلاك قوة الحساب الفعلي لـ Grok3 هو 263 مرة من V3. وفيما يتعلق بفارق DeepSeek V3 مع Grok3 الذي حصل على 1402 نقطة في قائمة التنافس بنموذج كبير، فإن الفارق حتى لا يصل إلى 100 نقطة فقط.
بعد ظهور هذه البيانات، أدرك العديد من الناس بسرعة أن خلف نجاح Grok3 بأنه "الأقوى في العالم"، يكمن في الحقيقة المنطقية التي تقول إن كلما كان النموذج أكبر، كلما كانت الأداء أقوى، لقد ظهر تأثير هامشي واضح.
حتى مع Grok2 ، المعروف بأنه "عالي الدرجات وضعيف الأداء" ، يوجد وراءه بيانات ذات جودة عالية من الطرف الأول على نطاق واسع داخل منصة X (تويتر) كدعم للاستخدام. وعند تدريب Grok3 ، سيواجه xAI بشكل طبيعي نفس "السقف" الذي يواجهه حاليًا OpenAI - نقص البيانات التدريبية ذات الجودة الممتازة ، مما يؤدي إلى تعرض آثار الهامش الفعال لقدرات النموذج بسرعة.
بالنسبة لهذه الحقائق، فإن الشخص الذي أدركها وفهمها عميقًا أولاً هو بالتأكيد فريق تطوير Grok3 وماسك، ولذلك فإن ماسك يعبر باستمرار عن أن تجربة المستخدم الحالية 'ما هي إلا نسخة اختبار' وأن 'النسخة الكاملة ستصدر في الأشهر القليلة القادمة'. ويقوم شخصيًا ماسك بدور مدير منتجات Grok3، ويقترح على المستخدمين تقديم ملاحظاتهم المتعلقة بالمشاكل التي يواجهونها أثناء الاستخدام مباشرة في منطقة التعليقات.
ربما كان هو أكثر مدير منتجات شعبية على كوكب الأرض | المصدر الصور: X
ولكن في غضون يوم واحد فقط، لقد أحيا Grok3 أملاً معقولاً في تدريب "قوة الطوب الكبيرة" لتطوير نماذج أكبر قوة، وهذا بالتأكيد يُشكل تحذيراً للمتأخرين، وفقاً لتخمينات مايكروسوفت العلنية، فإن حجم معلمات OpenAI GPT4 يبلغ 18000 مليار معلمة، وهذا يعني أنه تم تحسين GPT3 بأكثر من 10 مرات، ويُشاع أن حجم معلمات GPT4.5 المزعوم قد يكون أكبر بكثير.
في الوقت نفسه الذي يتزايد فيه حجم معلمات النموذج، ترتفع تكلفة التدريب أيضًا بشكل كبير | المصدر الصورة: X
مع Grok3 في الأمام، يجب أن يأخذ GPT4.5 والمزيد من اللاعبين الذين يرغبون في مواصلة "حرق المال" للحصول على أداء نموذج أفضل من خلال حجم المعلمات في الاعتبار السقف القريب بالفعل وكيف يمكنهم تجاوزه.
في هذا الوقت، قال إيليا سوتسكيفير، العالم السابق في OpenAI، في ديسمبر الماضي: 'سينتهي ما نعرفه من التدريب المسبق'، وتمت إعادة تذكير الناس به مرة أخرى، والسعي لإيجاد مخرج حقيقي لتدريب النماذج الكبيرة.
رأي إيلي قد دق ناقوس الخطر للصناعة بالفعل | المصدر الصورة: X
في ذلك الوقت، تنبأ إيليا بدقة بأن البيانات الجديدة المتاحة كانت على وشك النضوب، وأن النماذج صعبة المتابعة لا يمكنها المضي قدمًا في تحسين الأداء من خلال الحصول على المزيد من البيانات، ووصف هذا الوضع بأنه استنزاف الوقود الأحفوري، مشيرًا إلى أن "تمامًا مثل النفط، فإن المحتوى الذي يتم إنشاؤه من قبل البشر على الإنترنت أيضًا محدود".
في توقعات Sutskever، ستكون الجيل القادم من النماذج بعد التدريب المسبق لديها 'حقيقية الاستقلال'، وفي نفس الوقت ستكون لديها قدرة 'مماثلة للدماغ البشري' على الاستدلال.
على عكس النماذج المدربة مسبقا اليوم ، والتي تعتمد بشكل أساسي على مطابقة المحتوى (بناء على ما تعلمه النموذج سابقا) ، ستكون أنظمة الذكاء الاصطناعي الغد قادرة على تعلم وبناء منهجيات حل المشكلات بطريقة مشابهة ل "تفكير" الدماغ البشري.
يحتاج النموذج الكبير للذكاء الاصطناعي إلى دراسة ملايين البيانات لتحقيق تأثير البداية الأساسي، حتى عند تغيير طريقة السؤال، فإنه لا يمكن فهم هذه الأسئلة الأساسية بشكل صحيح، وبالتالي، لم يحقق النموذج تطورًا حقيقيًا في الذكاء: هذا ما يتجلى بوضوح في الظواهر التي لا يمكن لـ Grok3 الإجابة عليها بشكل صحيح على الرغم من أنها أسئلة أساسية تم ذكرها في بداية المقال.
لكن بجانب 'قوة الطين الطائر'، إذا كان يمكن لـ Grok3 حقًا كشف "حقيقة أن النماذج المدربة مسبقا على وشك الانتهاء" للصناعة، فإن لديها لا تزال أهمية ملحوظة للصناعة.
ربما، بعد تلاشي جنون Grok3، يمكننا أيضًا رؤية المزيد من الحالات المماثلة لـ Li Feifei "ضبط النموذج الأعلى أداءً بقيمة 50 دولارًا على مجموعة بيانات محددة". وفي هذه التجارب، نجد في النهاية طريقًا حقيقيًا نحو الذكاء الاصطناعي الشامل.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
اختبار 'أذكى شخص في العالم' GROK3: هل هو حقًا نهاية تأثير الحافة للنموذج؟
في 18 فبراير بتوقيت بكين، قدم ماسك وفريق XAI إصدار Grok3 الجديد بث مباشر.
قبل حتى بدء هذا الحدث، وبفضل العديد من المعلومات ذات الصلة التي تم الكشف عنها، بالإضافة إلى التسويق المكثف على مدار 24 ساعة من قبل ماسك نفسه، جعلت التوقعات العالمية حول Grok3 تصل إلى مستويات غير مسبوقة. قبل أسبوع واحد فقط، عبر ماسك عن ثقته الكاملة خلال بث مباشر حول DeepSeek R1، وأشار إلى أن 'XAI سيطلق نماذج AI أفضل قريبًا'.
من البيانات المعروضة، يبدو أن Grok3 قد تفوقت بالفعل على جميع النماذج الرئيسية الحالية في اختبارات الرياضيات والعلوم والبرمجة، وصرّح ماسك حتى أن Grok 3 ستستخدم في مهمة الفضاء إلى المريخ التابعة لشركة SpaceX وتتوقع "تحقيق اختراق على مستوى جائزة نوبل خلال ثلاث سنوات".
لكن هذه حاليًا مجرد رأي واحد من ماسك فقط. بعد الإصدار، قمت بتجربة أحدث إصدار بيتا من Grok3 وطرحت تلك السؤال الكلاسيكي الذي يستخدم لإثارة صعوبات النماذج الكبيرة: 'أيهما أكبر، 9.11 أم 9.9؟'
من المؤسف أن غروك3، الذي يُدعى بأنه الأذكى حتى الآن دون أي صفة أو إشارة، لا يزال غير قادر على الإجابة الصحيحة على هذا السؤال.
GROK3 لم يتعرف بدقة على معنى هذه المشكلة | المصدر الصورة: جيك بارك
بعد إصدار هذا الاختبار، لفت انتباه العديد من الأصدقاء بسرعة خلال وقت قصير، وليس هذا فحسب، بل وجدت هناك العديد من الاختبارات الشبيهة في الخارج، مثل "أي كرة ستسقط أولاً من برج بيزا المائل" وهذه الأسئلة الأساسية في الفيزياء/الرياضيات، وقد تم اكتشاف أن Grok3 لا يستطيع التعامل معها بعد. ولذلك، أطلق عليه لقب "العباقرة لا يرغبون في الإجابة على الأسئلة البسيطة".
ظهرت العديد من مشكلات المعرفة في اختبار Grok3 العملي "تعثر" | المصدر الصورة: X
بالإضافة إلى هذه الاختبارات التي قام بها المستخدمين بشكل تطوعي، تم اكتشاف العديد من الأخطاء الأساسية في Grok3. خلال بث مباشر لحدث xAI، قام ماسك بتقديم عرض لاستخدام Grok3 لتحليل الوظيفة والتأثيرات الرفيعة لـ Path of Exile 2 (، الذي يدعي أنه يلعبه بانتظام. ومع ذلك، كانت معظم الإجابات التي قدمها Grok3 خاطئة. ولم يلاحظ ماسك هذه المشكلة الواضحة خلال البث المباشر.
ظهر Grok3 في البث المباشر أيضًا مع وجود أخطاء كبيرة في البيانات | المصدر الصور: X
لذلك، أصبحت هذه الخطأ ليس فقط دليلاً على سخرية المستخدمين الأجانب مرة أخرى من ماسك للعبة 'البحث عن شخص محترف'، ولكن أيضًا وضعت علامة استفهام كبيرة مرة أخرى على موثوقية Grok3 في التطبيق العملي.
بالنسبة لهذا النوع من 'العباقرة'، فإن موثوقية استخدامها في مهام استكشاف المريخ المعقدة للغاية مثل هذه، بغض النظر عن قدرتها الفعلية، يجب أن تكون محل شك كبير.
حاليا، يشير العديد من الذين حصلوا على تأهيل اختبار Grok3 قبل عدة أسابيع، وكذلك أولئك الذين استخدموا قدرات النموذج لبضع ساعات فقط أمس، إلى استنتاج واحد حول أداء Grok3 الحالي:
"Grok3 جيد لكنه ليس أفضل من R1 أو o1-Pro"
"Grok3 جيد لكنه ليس أفضل من R1 أو o1-Pro" | المصدر الصورة: X
في الإصدار الرسمي لـ Grok3 PPT، تم تحقيق "الريادة بشكل بعيد" في ساحة منافسة الروبوتات الكبيرة Chatbot Arena، ولكن هذا يتطلب أيضًا بعض الحيل الصغيرة في رسم الرسوم البيانية: تم عرض فقط تصنيفات النقاط من 1400 إلى 1300 على المحور الرأسي للجدول، مما يجعل الفارق الذي كان يبلغ 1% في نتائج الاختبار يبدو واضحًا بشكل استثنائي في عرض الـ PPT هذا.
تأثير "الريادة بمراحل" في الشرائح الرسمية | المصدر الصور: X
أداء النموذج الفعلي يظهر أن Grok3 فقط بفارق أقل من 1-2 ٪ مقارنة بـ DeepSeek R1 و GPT4.0: وهذا يعني أن العديد من المستخدمين لا يلاحظون فارقًا واضحًا في الأداء أثناء الاختبار الفعلي.
في الواقع، يبلغ تصنيف Grok3 الفعلي فقط 1%-2% أعلى من اللاحق | المصدر الصورة: X
بالإضافة إلى ذلك، على الرغم من تفوق Grok3 من حيث النقاط على جميع النماذج المعروضة حاليا في الاختبار العام، إلا أن هذا الأمر لا يُقدر من قبل الكثيرين: بعد كل شيء، كان xAI يحصل على نقاط عالية في هذه القائمة منذ عصر Grok2، ومع تخفيض النقاط بشكل كبير بسبب تقليل وزن طول وأسلوب الإجابة، فقد اعتبر غالبا من قبل المحترفين في الصناعة أنه 'نقاط عالية وقليلة من القدرة'.
سواء كان ذلك في قائمة النقاط أو في "الحيل" التصميمية للصور، يظهر xAI وإصرار ماسك نفسه على "التفوق البعيد" في قدرات النموذج.
وبالنسبة لهذه الفارق، فإن الثمن الذي دفعه ماسك لا يقل عن ذلك: في المؤتمر الصحفي، أعرب ماسك بتهكم تقريبي عن استخدام 200 ألف بطاقة H100 (وقال ماسك في بث مباشر "أكثر من 100 ألف") لتدريب Grok3، مع إجمالي ساعات التدريب تصل إلى ملياري ساعة. هذا جعل بعض الناس يعتقدون أن هذا يعتبر إيجابيًا بشكل كبير لصناعة وحدات معالجة الرسومات، ويرون أن الاهتزاز الذي يسببه DeepSeek في الصناعة هو "سخيف".
يعتقد العديد من الناس أن تجميع القوة الحسابية سيكون مستقبل تدريب النماذج | المصدر الصور: X
ولكن في الواقع، قام أحد الأشخاص على الإنترنت بمقارنة استخدام 2000 جهاز H800 لمدة شهرين لتدريب DeepSeek V3، وحسب الحسابات، فإن استهلاك قوة الحساب الفعلي لـ Grok3 هو 263 مرة من V3. وفيما يتعلق بفارق DeepSeek V3 مع Grok3 الذي حصل على 1402 نقطة في قائمة التنافس بنموذج كبير، فإن الفارق حتى لا يصل إلى 100 نقطة فقط.
بعد ظهور هذه البيانات، أدرك العديد من الناس بسرعة أن خلف نجاح Grok3 بأنه "الأقوى في العالم"، يكمن في الحقيقة المنطقية التي تقول إن كلما كان النموذج أكبر، كلما كانت الأداء أقوى، لقد ظهر تأثير هامشي واضح.
حتى مع Grok2 ، المعروف بأنه "عالي الدرجات وضعيف الأداء" ، يوجد وراءه بيانات ذات جودة عالية من الطرف الأول على نطاق واسع داخل منصة X (تويتر) كدعم للاستخدام. وعند تدريب Grok3 ، سيواجه xAI بشكل طبيعي نفس "السقف" الذي يواجهه حاليًا OpenAI - نقص البيانات التدريبية ذات الجودة الممتازة ، مما يؤدي إلى تعرض آثار الهامش الفعال لقدرات النموذج بسرعة.
بالنسبة لهذه الحقائق، فإن الشخص الذي أدركها وفهمها عميقًا أولاً هو بالتأكيد فريق تطوير Grok3 وماسك، ولذلك فإن ماسك يعبر باستمرار عن أن تجربة المستخدم الحالية 'ما هي إلا نسخة اختبار' وأن 'النسخة الكاملة ستصدر في الأشهر القليلة القادمة'. ويقوم شخصيًا ماسك بدور مدير منتجات Grok3، ويقترح على المستخدمين تقديم ملاحظاتهم المتعلقة بالمشاكل التي يواجهونها أثناء الاستخدام مباشرة في منطقة التعليقات.
ربما كان هو أكثر مدير منتجات شعبية على كوكب الأرض | المصدر الصور: X
ولكن في غضون يوم واحد فقط، لقد أحيا Grok3 أملاً معقولاً في تدريب "قوة الطوب الكبيرة" لتطوير نماذج أكبر قوة، وهذا بالتأكيد يُشكل تحذيراً للمتأخرين، وفقاً لتخمينات مايكروسوفت العلنية، فإن حجم معلمات OpenAI GPT4 يبلغ 18000 مليار معلمة، وهذا يعني أنه تم تحسين GPT3 بأكثر من 10 مرات، ويُشاع أن حجم معلمات GPT4.5 المزعوم قد يكون أكبر بكثير.
في الوقت نفسه الذي يتزايد فيه حجم معلمات النموذج، ترتفع تكلفة التدريب أيضًا بشكل كبير | المصدر الصورة: X
مع Grok3 في الأمام، يجب أن يأخذ GPT4.5 والمزيد من اللاعبين الذين يرغبون في مواصلة "حرق المال" للحصول على أداء نموذج أفضل من خلال حجم المعلمات في الاعتبار السقف القريب بالفعل وكيف يمكنهم تجاوزه.
في هذا الوقت، قال إيليا سوتسكيفير، العالم السابق في OpenAI، في ديسمبر الماضي: 'سينتهي ما نعرفه من التدريب المسبق'، وتمت إعادة تذكير الناس به مرة أخرى، والسعي لإيجاد مخرج حقيقي لتدريب النماذج الكبيرة.
رأي إيلي قد دق ناقوس الخطر للصناعة بالفعل | المصدر الصورة: X
في ذلك الوقت، تنبأ إيليا بدقة بأن البيانات الجديدة المتاحة كانت على وشك النضوب، وأن النماذج صعبة المتابعة لا يمكنها المضي قدمًا في تحسين الأداء من خلال الحصول على المزيد من البيانات، ووصف هذا الوضع بأنه استنزاف الوقود الأحفوري، مشيرًا إلى أن "تمامًا مثل النفط، فإن المحتوى الذي يتم إنشاؤه من قبل البشر على الإنترنت أيضًا محدود".
في توقعات Sutskever، ستكون الجيل القادم من النماذج بعد التدريب المسبق لديها 'حقيقية الاستقلال'، وفي نفس الوقت ستكون لديها قدرة 'مماثلة للدماغ البشري' على الاستدلال.
على عكس النماذج المدربة مسبقا اليوم ، والتي تعتمد بشكل أساسي على مطابقة المحتوى (بناء على ما تعلمه النموذج سابقا) ، ستكون أنظمة الذكاء الاصطناعي الغد قادرة على تعلم وبناء منهجيات حل المشكلات بطريقة مشابهة ل "تفكير" الدماغ البشري.
يحتاج النموذج الكبير للذكاء الاصطناعي إلى دراسة ملايين البيانات لتحقيق تأثير البداية الأساسي، حتى عند تغيير طريقة السؤال، فإنه لا يمكن فهم هذه الأسئلة الأساسية بشكل صحيح، وبالتالي، لم يحقق النموذج تطورًا حقيقيًا في الذكاء: هذا ما يتجلى بوضوح في الظواهر التي لا يمكن لـ Grok3 الإجابة عليها بشكل صحيح على الرغم من أنها أسئلة أساسية تم ذكرها في بداية المقال.
لكن بجانب 'قوة الطين الطائر'، إذا كان يمكن لـ Grok3 حقًا كشف "حقيقة أن النماذج المدربة مسبقا على وشك الانتهاء" للصناعة، فإن لديها لا تزال أهمية ملحوظة للصناعة.
ربما، بعد تلاشي جنون Grok3، يمكننا أيضًا رؤية المزيد من الحالات المماثلة لـ Li Feifei "ضبط النموذج الأعلى أداءً بقيمة 50 دولارًا على مجموعة بيانات محددة". وفي هذه التجارب، نجد في النهاية طريقًا حقيقيًا نحو الذكاء الاصطناعي الشامل.