العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
هذه الذكاء الاصطناعي فرانكشتاين يدمج كلود أوبوس، وGLM، وQwen—ويتفوق على أفضل النماذج
باختصار
هل ظننت أن Qwopus كان رائعًا لأنه دمج Qwen و Opus؟ حسنًا، كايل هيسلينج، مهندس ذكاء اصطناعي يمتلك معرفة واسعة ووقت فراغ، أخذ تلك الوصفة وأدخل GLM—واحد من أفضل نماذج الاستدلال الموجودة—في المزيج. النتيجة هي عملية دمج فرانكنميرج تحتوي على 18 مليار معلمة وتناسب على بطاقة رسومات رخيصة وتتجاوز أداء أحدث نموذج من علي بابا الذي يضم 35 مليار معلمة. لمن لا يعرف، المعلمات هي القيم الرقمية المدمجة في شبكة عصبية أثناء التدريب، مثل أزرار يمكن للشبكة العصبية تعديلها — كلما زادت، زادت معرفة النموذج وتعقيده، وكلما زاد استهلاك الذاكرة لتشغيله. هيسلينج، مهندس بنية تحتية للذكاء الاصطناعي، جمع بين اثنين من تحسينات Qwen3.5 الخاصة بجاك رون: الطبقات من 0 إلى 31 من Qwopus 3.5-9B-v3.5، الذي يُ distilled أسلوب استدلال Claude 4.6 Opus إلى Qwen كنموذج أساسي، والطبقات من 32 إلى 63 من Qwen 3.5-9B-GLM5.1-Distill-v1، المدربة على بيانات استدلال من نموذج المعلم GLM-5.1 من z.AI فوق نفس قاعدة Qwen.
الفرضية: إعطاء النموذج تخطيطًا من نوع Opus في النصف الأول من الاستدلال، وهيكل تفكيك المشكلة من GLM في النصف الثاني—64 طبقة إجمالًا، في نموذج واحد. التقنية تسمى دمج فرانكنميرج عبر تمرير—بدون مزج، بدون متوسطات للأوزان، فقط تكديس الطبقات الخام. اضطر هيسلينج لكتابة سكريبت الدمج الخاص به من الصفر لأن الأدوات الموجودة لا تدعم بنية الانتباه المختلطة linear/full الخاصة بـ Qwen 3.5. النموذج الناتج اجتاز 40 من أصل 44 اختبار قدرة، متفوقًا على Qwen 3.6-35B-A3B MoE من علي بابا—الذي يتطلب 22 جيجابايت من VRAM—بينما يعمل على 9.2 جيجابايت فقط في التكميم Q4_K_M. بطاقة NVIDIA RTX 3060 تتعامل معه بشكل جيد… نظريًا.
يشرح هيسلينج أن صنع هذا النموذج لم يكن سهلاً. كان الدمج الخام يسبب أحيانًا تشويش في الشفرة. ومع ذلك، النماذج التي نشرها أصبحت شائعة بين المتحمسين. الحل النهائي الذي توصل إليه هيسلينج كان “تصحيح لياقة التوليف”—وهو في الأساس QLoRA ( قطعة من الكود مدمجة في النموذج كملحق وتؤثر بشكل كبير على المخرجات النهائية ) مستهدفة كل الانتباه والإسقاطات. جربنا ذلك، وعلى الرغم من أن فكرة تشغيل Qwen، Claude Opus، و GLM 5.1 محليًا على حاسوب ضعيف كانت مغرية جدًا، إلا أننا اكتشفنا أن النموذج جيد جدًا في التفكير، لدرجة أنه غالبًا ما يبالغ في التفكير. اختبرناه على جهاز MacBook بمعالج M1 يعمل بنسخة محسنة من النموذج (مُكمم على أجهزة Mac). عندما طلبنا منه توليد لعبتنا التجريبية المعتادة، استمرت سلسلة الاستدلال لفترة طويلة جدًا حتى وصلت إلى حد الرموز وأعطتنا قطعة طويلة من التفكير بدون نتيجة عملية في تفاعل بدون تدريب مسبق. وهو عائق يومي لأي شخص يرغب في تشغيله محليًا على أجهزة المستخدمين لأي تطبيق جدي. خفضنا قليلاً من مستوى التحدي، ومع ذلك كانت الأمور لا تزال صعبة. طلب بسيط “اكتب لعبة Snake” استغرق أكثر من 40 دقيقة في الاستدلال… والكثير منه.
يمكنك رؤية النتائج في مستودع Github الخاص بنا. هذه مشكلة معروفة في سلالة Qwopus: تحسينات جاكرون v2 كانت مصممة لمعالجة ميل Qwen 3.5 نحو حلقات داخلية متكررة و"التفكير بشكل أكثر اقتصادًا." تكديس 64 طبقة من اثنين من عمليات التقطير الاستدلالي يبدو أنه يعزز هذا السلوك في بعض الطلبات.
هذه مشكلة يمكن حلها، ومن المحتمل أن تحلها المجتمع مفتوح المصدر. المهم هنا هو النمط الأوسع: مطور مجهول ينشر تحسينات مخصصة مع أدلة تدريب كاملة، ومتخصص آخر يكدسها باستخدام سكريپت مخصص، ويقوم بـ 1000 خطوة علاج، ويحصل على نموذج يتفوق على إصدار يضم 35 مليار معلمة من أحد أكبر مختبرات الذكاء الاصطناعي في العالم. كل ذلك في ملف صغير. هذا هو السبب في أن المصدر المفتوح يستحق المتابعة—ليس فقط من قبل المختبرات الكبرى التي تنشر الأوزان، بل الحلول خطوة بخطوة، والتخصص الذي يحدث تحت الرادار. الفجوة بين مشروع نهاية أسبوع ونشر على الحدود أضيق كلما انضم المزيد من المطورين إلى المجتمع. منذ ذلك الحين، قام جاكرون بمراعاة مستودع هيسلينج، وبلغ عدد التنزيلات على النموذج أكثر من ثلاثة آلاف خلال الأسبوعين الأولين من توفره.