عدم تعديل الأوزان، ضبط API فقط: Poetiq "إضافة خارجية" تجعل Kimi ترتفع بنسبة 29.9 نقطة مئوية، نسخة خفيفة من Gemini تتفوق على Claude Opus

robot
إنشاء الملخص قيد التقدم
رسالة AIMPACT، 15 مايو (بتوقيت UTC+8)، وفقًا لمراقبة Beating، أعلنت فريق ناشئ مكون من 6 أشخاص يُدعى Poetiq، أسسه الباحثان السابقان في Google و DeepMind، Shumeet Baluja و Ian Fischer، أن نظام Meta-System الخاص بهم حقق أعلى نتيجة على معيار البرمجة LiveCodeBench Pro. هذا النظام هو أداة مساعدة ذكية تعتمد تمامًا على صلاحية الوصول عبر API، وتقوم بتحسين ذاتي متكرر لاستخراج خبرة المهام تلقائيًا. أظهرت الاختبارات الرسمية أنه، دون لمس أوزان النموذج أو إجراء تعديل دقيق، قام هذا النظام مباشرة برفع قدرة الشفرات لأغلب النماذج الكبيرة السائدة في السوق. أظهرت النتائج أن هذا الحل المعتمد على فصل الأداة عن النموذج يحقق تحسينات واضحة بشكل خاص على النماذج ذات القدرات الأضعف. بعد دمج نظام Poetiq، ارتفعت دقة Kimi K2.6 من 50.0% إلى 79.9%، بزيادة قدرها 29.9 نقطة مئوية؛ كما زادت نتائج Gemini 3.0 Flash الخفيفة الوزن بنسبة 10 نقاط مئوية، متفوقة على إصدارها الكبير Gemini 3.1 Pro، وتفوقت بشكل ملحوظ على Claude Opus 4.7 و GPT 5.2 High، اللذين وصفهما Poetiq بأنه «أكبر وأغلى». فيما يتعلق بحدود الأداء، حقق GPT 5.5 High الذي كانت نتيجته 89.6% ارتفاعًا جديدًا إلى 93.9% بفضل الدعم الإضافي؛ بينما حصل الإصدار الأساسي من Gemini 3.1 Pro على 90.9% عند استخدام الأداة، متجاوزًا النموذج الأقوى من Google الذي لم يفتح API الخاص به بعد، وهو Gemini 3 Deep Think، الذي حصل على 88.8%. وذكر فريق Poetiq أن التعديلات الدقيقة التقليدية تقيد تحسينات الأداء على نموذج واحد فقط، بينما يمكن لنظامهم السلس أن يمكّن الشركات من تحسين قدرات الاستنتاج دون تحمل التكاليف العالية للتعديل والنشر لنماذج كاملة. (المصدر: BlockBeats)
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • 8
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
SeaSaltAirdropNotes
· منذ 4 س
الملحقات API الصافية يمكنها دفع النموذج الضعيف إلى الحد الأقصى، هذه الفكرة جريئة جدًا، وتوفر على الشركات الكثير من المال
شاهد النسخة الأصليةرد0
StargazerInTheWoods
· منذ 5 س
هذه الـMeta-System تبدو وكأنها تفتح دماغًا خارجيًا للنموذج، وإعادة استخدام الخبرة بشكل رائع
شاهد النسخة الأصليةرد0
RugpullTaster
· منذ 5 س
بدون تعديل، يمكنه مضاهاة Deep Think، والمصانع الصغيرة والمتوسطة تفرح بشكل جنوني
شاهد النسخة الأصليةرد0
TreatEarningsAsSnacks
· منذ 5 س
فريق مكون من ستة أشخاص يهزم قسم التعديلات الصغيرة في العديد من الشركات الكبرى، والسخرية تصل إلى الحد الأقصى
شاهد النسخة الأصليةرد0
MarginMoth
· منذ 5 س
كلود أوبس 4.7 تم تدميره بواسطة Flash+ والإضافات، على أنثروبيك أن تتأمل في الأمر
شاهد النسخة الأصليةرد0
BridgeSideBanter
· منذ 5 س
استخراج الخبرة بشكل تكراري، يبدو وكأن النموذج يكتب هندسة الطلبات بنفسه
شاهد النسخة الأصليةرد0
GovernanceGremlin
· منذ 5 س
هل أصبح التعديل على النماذج الضعيفة لزيادة قوتها، وديمقراطية الحوسبة قد أصبحت حقيقة؟
شاهد النسخة الأصليةرد0
FloatingTeacupClub
· منذ 5 س
GPT5.5 High وصلت إلى 93.9٪، والحد الأقصى لا يزال يتصاعد
شاهد النسخة الأصليةرد0
  • مُثبت