عدم تعديل الأوزان، ضبط API فقط: Poetiq "إضافة خارجية" تجعل Kimi ترتفع بنسبة 29.9 نقطة مئوية، نسخة خفيفة من Gemini تتفوق على Claude Opus

robot
إنشاء الملخص قيد التقدم
رسالة AIMPACT، 15 مايو (بتوقيت UTC+8)، وفقًا لمراقبة Beating، أعلنت فريق ناشئ مكون من 6 أشخاص يُدعى Poetiq، أسسه الباحثان السابقان في Google و DeepMind شوميت بالوجا و إيان فيشر، أن نظام Meta-System الخاص بهم حقق أعلى نتيجة على معيار البرمجة LiveCodeBench Pro. هذا النظام هو أداة ذكية تعتمد كليًا على صلاحيات الوصول عبر API، وتقوم بتحسين ذاتي متكرر لاستخراج خبرات المهام تلقائيًا. أظهرت الاختبارات الرسمية أنه، دون لمس أوزان النموذج أو إجراء تعديل دقيق، قام هذا النظام مباشرة برفع قدرات الشفرات لنماذج كبيرة سائدة في السوق. أظهرت نتائج الاختبار أن هذا الحل المعتمد على فصل الأداة عن النموذج يُظهر تحسينات واضحة بشكل خاص على النماذج ذات القدرات الأضعف. بعد دمج نظام Poetiq، ارتفعت دقة Kimi K2.6 من 50.0% إلى 79.9%، بزيادة قدرها 29.9 نقطة مئوية؛ كما زادت نتائج Gemini 3.0 Flash الخفيفة الوزن بنسبة 10 نقاط مئوية، متفوقة على إصدارها الكبير Gemini 3.1 Pro، وتفوقت بشكل ملحوظ على Claude Opus 4.7 و GPT 5.2 High، اللذين وصفهما Poetiq بأنه "أكبر وأغلى". فيما يتعلق بحدود الأداء، حقق GPT 5.5 High الذي كانت نتيجته 89.6% ارتفاعًا جديدًا إلى 93.9% مع دعم الأداة؛ بينما حصل الإصدار الأساسي من Gemini 3.1 Pro على 90.9% عند استخدام الأداة، متجاوزًا النموذج الأقوى من Google الذي لم يفتح API الخاص به بعد، وهو Gemini 3 Deep Think الذي حقق 88.8%. قال فريق Poetiq إن التعديلات الدقيقة التقليدية تُقيد تحسينات النموذج على نموذج واحد فقط، بينما تتيح لهم أداة التوصيل السلس هذه أن تتجنب الشركات التكاليف العالية المرتبطة بالتعديل الدقيق ونشر نماذج كاملة القوة. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 7
  • 1
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
On-ChainSoilAfterTheRain
· منذ 7 س
GPT5.5 High مباشرة 93.9٪، هذا الاختراق أقوى من التحديث الرسمي
شاهد النسخة الأصليةرد0
SlothSignal
· منذ 7 س
انتظر، بعد تركيب Gemini3.1 Pro الإضافي أصبح 90.9، أليس من الطبيعي أن يتفوق الإصدار الأصلي 3.0 على الإضافي؟ هذا المقارنة مريرة جدًا
شاهد النسخة الأصليةرد0
ForkItAnyway
· منذ 7 س
التحسين الذاتي التكراري + الإضافات عبر واجهة برمجة التطبيقات فقط، هذه الفكرة جريئة جدًا، بدون تعديل الأوزان يمكنها أن تجعل KimiK2.6 ترتفع من 50 إلى 79.9، والشركات حقًا يمكنها توفير مبلغ كبير من تكاليف التخصيص الدقيق
شاهد النسخة الأصليةرد0
VolatilityInATeacup
· منذ 7 س
كيمني حققت فوزًا كبيرًا، ارتفاع من 50 إلى 79.9 أسرع بكثير من تطورهم الذاتي
شاهد النسخة الأصليةرد0
PaperHandsPro
· منذ 7 س
سيناريوهات التنفيذ على جانب الشركات يجب أن تعتمد بشكل كبير على هذه المجموعة، لا حاجة لتخزين البطاقات أو إجراء RLHF، يمكن تحسين الكفاءة من خلال واجهة برمجة التطبيقات فقط
شاهد النسخة الأصليةرد0
Post-RainReflectionsMarket
· منذ 7 س
عدم لمس الأوزان وعدم التعديل الدقيق، الاعتماد فقط على الخبرة في الاستخراج والتحسين التكراري، هذا النهج ذكي جدًا، وتجنب العديد من مشاكل الامتثال والتكلفة
شاهد النسخة الأصليةرد0
Frictionless
· منذ 7 س
Poetiq ستة أشخاص يطورون هذا النوع من أنظمة الميتا، شيء مميز
شاهد النسخة الأصليةرد0
  • مُثبت