خلال اليومين الماضيين قمت خصيصًا باختبار باستخدام مشروع حقيقي.
ليس LeetCode، وليس نموذجًا بسيطًا من ملف واحد، بل مشروع SaaS مستمر منذ عامين.
حوالي 48 ملفًا رئيسيًا، بنية مختلطة بين الواجهة الأمامية والخلفية، مشروع يحمل عبء تاريخي نموذجي.
المهمة الاختبارية كانت بسيطة: عزل منطق التحقق من الأذونات المبعثر في عدة وحدات إلى طبقة وسيطة موحدة، مع ضمان التوافق مع الواجهات القديمة.
أصعب جزء في مثل هذه المهمة ليس كتابة الكود، بل الحفاظ على السياق باستمرار.
يحتاج النموذج إلى فهم المنطق القديم، واكتشاف الاعتمادات، وتعديل عدة ملفات، وتحديث سلسلة الاستدعاءات، ثم التحقق من عدم وجود أخطاء.
لقد أرسلت نفس الـ Prompt إلى Claude Fable 5، وOpus 4.8، وGPT-5.5، وGemini 3.1 Pro.
تمت العملية كلها في وضع PK من ZenMux، لأنه يتيح مراقبة المخرجات، والتأخير، واستهلاك الرموز في الوقت الحقيقي.
النتائج كانت مثيرة، كان GPT-5.5 الأسرع في البدء، لكن بدأ يظهر انحراف واضح في السياق من الملف الحادي عشر.
Gemini 3.1 Pro جيد جدًا في الشرح، لكن الحلول المقترحة كانت محافظة جدًا.
قدرة فهم الهيكلية لدى Opus 4.8 لا تزال قوية، لكنه أغفل عن تتبع اعتماديات بين الوحدات وارتكب خطأ في حكمين على الأذونات الطرفية.
Fable 5 هو النموذج الوحيد الذي قام بفحص خططه بشكل نشط.
لم يكتفِ بتوليد خطة التعديلات، بل أدرج نقاط الخطر المحتملة، ثم أعاد فحص سلسلة الاستدعاءات للتحقق.
حتى أنه في مرة من المرات قال إنه أنهى المهمة، ثم اكتشف أنه نسي شيئًا، وقام بإلغاء استنتاجه السابق وتصحيحه بنفسه.
هذا هو الجزء الذي يهمني أكثر، لأنه في المشاريع الحقيقية، أغلى شيء ليس كتابة النموذج للكود بشكل خاطئ، بل أن يعتقد النموذج أنه كتب بشكل صحيح.
دائمًا ما يؤكدون على خاصية التحقق الذاتي في Fable 5.
كنت أظن أن ذلك مجرد مصطلح تسويقي، لكن بعد الاختبار، تبين أن هذه القدرة موجودة بالفعل، وأنها ذات قيمة أكبر بكثير في المهام المعقدة مقارنة بأرقام الـ Benchmark.
بالطبع، هناك تكلفة أيضًا، حيث أن استجابة Fable 5 تكون أطول بشكل ملحوظ، وأحيانًا تشعر أنه يفكر.
بالنسبة للمهام البسيطة مثل CRUD أو السكربتات العادية، لن أختاره.
لكن للمهام التي تتطلب فهم مستمر لعشرات الملفات، والحفاظ على استنتاجات طويلة، فهو حاليًا الأكثر إثارة للإعجاب في نظري.
الاستنتاج بسيط جدًا، Fable 5 ليس أقوى مولد للكود، بل هو أكثر موثوقية كشريك هندسي.
وهذا هو السبب في أن المزيد من الناس بدأوا يعتبرونه منسقًا في سير عمل الوكيل، وليس مجرد نموذج برمجي.
إذا أردت إعادة تجربة اختبار مماثل بنفسك، فإن ZenMux قد أضاف مؤخرًا Fable 5، ويقوم حاليًا بحملة شحن واسترداد محدودة لمدة أسبوع.
اشحن 20 دولار واحصل على 10 دولارات مجانًا، واشحن 50 دولار واحصل على 30 دولارًا.
الأهم من ذلك، لا قيود على RPM أو التدفق، ولا حاجة لتقديم طلبات خاصة لائتمانات الشركات المختلفة، فحساب واحد يمكنه استدعاء أكثر من 200 نموذج لإجراء تقييم شامل.
بالنسبة لمن يرغب في اختبار الفروقات بين Fable 5، وOpus 4.8، وGPT-5.5، فالمستوى منخفض جدًا الآن.
رابط النشاط:
لا تفوت فرصة تجربة Claude Fable 5 على الفور.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
MyGateTradeStory
38.06K درجة الشعبية
#
USMayCPIHitsThreeYearHigh
314.07K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
57.21K درجة الشعبية
#
USIranConflictEscalates
692.74K درجة الشعبية
#
GateLaunchesHongKongStockTrading
786.02K درجة الشعبية

مُثبت

خريطة الموقع

ما مدى قوة Claude Fable 5 مقارنة بـ Opus 4.8؟

المواضيع الرائجة

MyGateTradeStory

USMayCPIHitsThreeYearHigh

IsraelStrikesIranBTCPlunges

USIranConflictEscalates

GateLaunchesHongKongStockTrading

مُثبت