Sander Dieleman من DeepMind، الذي اشتهر بنماذج الانتشار (Diffusion Models)، سرعان ما دعمها على تويتر قائلاً إنها قصة مثيرة للاهتمام حول نماذج اللغة الكبيرة (LLM):

قانون التحجيم الأصلي كان خاطئًا بسبب خطأ برمجي، ومن المحتمل أن يكون قد تسبب في إهدار كميات هائلة من القوة الحاسوبية في الصناعة على مجموعة من النماذج "كبيرة الحجم وغير المدربة بشكل كاف".

خطأ برمجي واحد، أضاع عامين.

عندما تم كشف الخطأ البرمجي، لم نرَ فقط ثقبًا أسود للقوة الحاسوبية، بل رأينا أيضًا حدودًا ذكية أعمق بكثير مما كنا نتصور، والتي أعادت تشكيلها اللغة نفسها.

قانون التحجيم هو نسخة LLM من "نظرية مركزية الأرض"

في عام 2020، خلصت OpenAI إلى: في إطار ميزانية حاسوبية ثابتة، يجب عليك إعطاء الأولوية لجعل النموذج أكبر، بدلاً من إطعامه المزيد من البيانات.

بالأرقام، عدد المعلمات الأمثل يتناسب مع القوة الحاسوبية مرفوعة للأس 0.73 — أي أن المعلمات هي المتغير الذي يجب دفعه بقوة.

هذه العبارة حددت بشكل مباشر شكل جيل GPT-3. تكديس المعلمات. إلى أقصى حد. 175 مليار.

أخبرت جميع المطورين في العالم: لا تسأل، فقط اكدس المعلمات؛ طالما أنك تجعل النموذج كبيرًا بما يكفي، ستحدث المعجزات.

بعد عامين، أطلقت DeepMind مشروع Chinchilla، الذي قلب هذا الاستنتاج رأسًا على عقب: يجب أن يكون النموذج والبيانات متساويين في الأهمية تقريبًا معًا، بحيث يكون لكل معلمة حوالي 20 رمزًا (token) مربحًا.

دربوا نموذج Chinchilla بحجم 70 مليار معلمة على 1.4 تريليون رمز — حجمه أقل من نصف حجم GPT-3، وبياناته أكثر بأربع مرات.

والنتيجة: بنفس الميزانية الحاسوبية، تفوق بشكل كامل على Gopher الذي كان بحجم 280 مليار معلمة لكنه غُذي بـ 300 مليار رمز فقط.

بمعنى آخر: بنفس المبلغ من المال، أحدهما جعله رجلاً قويًا "متورمًا"، والآخر جعله ملاكمًا نحيفًا.

بعد ثلاث سنوات من التأخير، ناقشت خريجة جامعة بكين، ونغ لي، بالتفصيل التفسير السائد في الأبحاث اللاحقة للاختلاف بينهما، وهو أن الاختلاف يكمن في طريقة حساب عدد المعلمات الإجمالي.

وهذا ليس كل شيء. حتى "الصحيح" منهما، تشينشيلا، لم يكن نظيفًا.

في عام 2024، استخرج Besiroglu وآخرون نقاط البيانات من مقال تشينشيلا الأصلي وأعادوا تشغيلها، ووجدوا أن في تركيبه الخاص أيضًا خطأ برمجيًا:

مقياس الخسارة في المحسن كان مرتفعًا جدًا، مع حساب متوسط خسارة هوبر على العينات بدلاً من الجمع، مما أدى إلى إنهاء التركيب قبل الأوان.

مقال تصحيح الخطأ، يحمل معه خطأً برمجيًا آخر.

عند هذه النقطة، "المبدأ الأساسي" الذي كان على ألسنة الجميع، بدأ فجأة يفقد ثباته.

ما يسمى بقانون التحجيم لم يكن أبدًا قانونًا فيزيائيًا صلبًا مثل قوانين نيوتن الثلاثة، إنه مجرد منحنى تم تركيبه تجريبيًا.

عندما يعتقد Diogo Almeida أن الحقيقة ليست كذلك، ليس أن الطريقة مختلفة، "إنها النسخة الأولى من قانون التحجيم نفسها بها خطأ برمجي."

هل خدعت OpenAI صناعة الذكاء الاصطناعي العالمية بثلاث حيل؟

لصنع كذبة تجعل صناعة الذكاء الاصطناعي العالمية تؤمن بها، تحتاج فقط إلى ثلاث خطوات.

الخطوة الأولى: حبس البيانات.

قدمت مقالة OpenAI لجميع النماذج — سواء كانت طفلًا يتعلم المشي (نموذج صغير) أو عملاقًا قد نما — نفس "كمية الطعام" تمامًا. حوالي 130 مليار رمز (tokens) من البيانات.

وبالتالي، تم "إشباع" أو حتى "إرهاق" النماذج الصغيرة، بينما النماذج الكبيرة التي تحتاج حقًا إلى بحر من البيانات لملء سعتها، عانت من سوء تغذية حاد تحت نفس ميزانية الرمز.

لاحقًا، أشارت مقالة تشينشيلا بدقة: لقد استخدموا "عددًا ثابتًا من رموز التدريب وجدول معدل التعلم لجميع النماذج." (fixed number of training tokens and learning rate schedule).

هذا مثل إعطاء طفل روضة الأطفال وطالب دكتوراه نفس الامتحان ونفس الوقت، ثم الإعلان أن "النتيجة تعتمد فقط على الموهبة."

الخطوة الثانية: تضاؤل معدل التعلم الخادع.

استخدموا تضاؤل معدل التعلم بجيب التمام (Cosine Decay)، مما يجعل معدل التعلم يقترب بسلاسة من الصفر قرب نهاية التدريب.

عندما يقترب التدريب من نهايته المحددة مسبقًا، يتم خفض معدل التعلم بشكل مصطنع إلى الصفر، وبالتالي يتوقف تقدم النموذج بشكل طبيعي.

بمجرد أن يصبح المنحنى مسطحًا، يبدو كما لو أن: هذا النموذج قد تعلم كل شيء بالفعل، إطعامه أكثر لا فائدة منه.

لذا خلص الباحثون: "إضافة البيانات لا فائدة منها، النموذج قد تشبع."

هذا ليس حد النموذج، بل هو قطع مصطنع لمسار نمو النموذج عن طريق معدل التعلم. إنه يخلق وهمًا مثاليًا: لقد وصل الأداء إلى السقف، ولا فائدة من إضافة المزيد من البيانات.

لكننا نعرف الآن أن تلك النماذج الكبيرة لم تصل إلى نهايتها على الإطلاق.

الخطوة الثالثة: غطرسة السلطة.

الخطوة الثالثة، والأكثر شرًا: في المقالة، كتبوا جملة أن النتيجة "مستقلة إلى حد كبير عن جدول معدل التعلم" (largely independent of learning rate schedule).

على الرغم من أن الكثيرين بما فيهم Diogo Almeida الذي كان يعمل في OpenAI في ذلك الوقت، شعروا بشكل خافت أن هناك شيئًا غير صحيح، إلا أنه في ظل الحد الثابت للرموز، كان هذا الاستنتاج صحيحًا تقنيًا.

لكنه لا ينطبق بأي شكل من الأشكال على العالم المثالي "البيانات غير المحدودة" الذي يحاول قانون التحجيم وصفه بالفعل.

حولوا الحقيقة المحلية في ظل ظروف محدودة إلى قانون كوني شامل.

الثلاث خطوات مجتمعة تنتج قانونًا خاطئًا وصعب التصحيح للغاية.

حتى Diogo نفسه اعترف: في ذلك الوقت كان يعمل في OpenAI على التحسين، ولم يكتشف هذا الخطأ البرمجي — منحنى معدل التعلم هذا بدا وكأنه "محدد بعناية"، فمن كان ليشك فيه.

وحدات معالجة الرسوميات (GPU) أهدرت بلا فائدة، توزيع القوة الحاسوبية خاطئ بشدة

تحت توجيه الصيغة الخاطئة من OpenAI، دخلت صناعة الذكاء الاصطناعي عصر "القوة العظيمة تصنع المعجزات".

هذا يعني أنه في السنوات الماضية، أهدرت أذكى العقول في العالم وأندر القوة الحاسوبية في توسيع الحجم غير الفعال.

هذه ليست مجرد مشكلة مال، بل هي في سباق الموت نحو AGI (الذكاء العام الاصطناعي) حيث ركضت البشرية جمعاء آلاف الكيلومترات على مسار خاطئ بسبب إعدادات معدل التعلم.

إذا كان اكتشاف الخطأ البرمجي مؤلمًا، فإن التأمل العميق الذي نتج عنه كان مرعبًا.

أشار الباحث Adam Zachary Wasserman إلى نقطة عمياء تجاهلها الجميع: حتى بعد تصحيح الصيغة، فإن قانون التحجيم الحالي هو مجرد "قانون تحجيم إنجليزي".

أجرى تجربة غير متوقعة: درب نماذج بنفس البنية ونفس القوة الحاسوبية.

النتيجة، أن النموذج الفرنسي وصل إلى قدرة نحوية معينة بكفاءة أعلى بـ 50 إلى 100 مرة من النموذج الإنجليزي.

لماذا؟ لأن الإنجليزية لغة "فقيرة شكليًا" (morphologically poor).

إنها تعتمد بشكل كبير على التوزيع الاحتمالي، مما يتطلب من النموذج تخمين معاني الكلمات في بحر من البيانات؛ بينما اللغات الغنية شكليًا مثل الفرنسية أو الصينية ذات البنية المحكمة، تحمل في مفرداتها نفسها كمية كبيرة من المعلومات الواضحة.

هذا يعني أن جميع خطط توزيع القوة الحاسوبية الحالية لدينا مبنية على أكثر لغة "استهلاكًا للبيانات" وأقلها كفاءة.

عندما تعتقد أنك تكتشف قوانين فيزيائية لـ "الذكاء العام"، فأنت في الحقيقة تقيس فقط "مدى إهدار اللغة الإنجليزية للقوة الحاسوبية."

هذا مثل محاولة وضع معايير غذائية لجميع الكائنات في الكون من خلال دراسة شهية خنزير واحد — هذا ليس فقط تحيزًا، بل هو قصور في الإدراك.

كان بإمكاننا استخدام نماذج أصغر وبيانات أكثر جودة لتحقيق أداء أقوى.

كان بإمكاننا توفير آلاف H100 من الكهرباء والحرارة أثناء التشغيل.

كان بإمكاننا الدخول إلى عصر "الذكاء الاصطناعي الفعال" قبل عامين.

المصدر: Xin Zhi Yuan

تحذير المخاطر وإخلاء المسؤولية

        السوق يحتوي على مخاطر، الاستثمار يجب أن يكون بحذر. هذه المقالة لا تشكل نصيحة استثمارية شخصية، ولم تأخذ في الاعتبار أهداف الاستثمار الخاصة أو الوضع المالي أو احتياجات المستخدم الفردية. يجب على المستخدم النظر فيما إذا كانت أي آراء أو وجهات نظر أو استنتاجات في هذه المقالة تناسب وضعه الخاص. الاستثمار بناءً على ذلك يتحمل المستخدم مسؤوليته.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
gStocksTokenizedStocksLive
4.82M درجة الشعبية
#
StrongNonfarmPayrollsRekindleRateHikeFear
1.07M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
68.84K درجة الشعبية
#
PredictWorldCupShare20000U
235.72K درجة الشعبية
#
ETHBreaks1700
152.64M درجة الشعبية

مُثبت

خريطة الموقع

OpenAI تنهار! قانون التوسع الأصلي يكشف عن خلل، تريليونات قوة الحوسبة تضيع سدى.

قانون التحجيم هو نسخة LLM من "نظرية مركزية الأرض"

هل خدعت OpenAI صناعة الذكاء الاصطناعي العالمية بثلاث حيل؟

وحدات معالجة الرسوميات (GPU) أهدرت بلا فائدة، توزيع القوة الحاسوبية خاطئ بشدة

المواضيع الرائجة

gStocksTokenizedStocksLive

StrongNonfarmPayrollsRekindleRateHikeFear

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

ETHBreaks1700

مُثبت