إذا كنت مثلي، تعتمد يوميًا على الذكاء الاصطناعي لكتابة المقالات، البرمجة، البحث، فبالتأكيد مررت بهذه التجربة — يقدّم الذكاء الاصطناعي نتيجة واثقًا، وعند فحصك لها تتفاجأ بوجود خطأ بسيط، وهو لم يبدِ أي إشارة طوال الوقت.

هذه المشكلة «التظاهر بأن كل شيء على ما يرام»، قد تكون واحدة من أكثر المشاكل إزعاجًا في النماذج الكبيرة الحالية.

في 28 مايو، أصدرت شركة أنثروبيك Claude Opus 4.8. بعد ستة أسابيع فقط من إصدار النسخة السابقة Opus 4.7.

ليست نسخة 4.8 قفزة مدهشة، واعترفت أنثروبيك بنفسها بأنها مجرد «تحسين معتدل لكنه ملموس» — لكنها حققت شيئًا طال انتظاره من قبل الكثيرين: جعل الذكاء الاصطناعي يعترف بعدم يقينه.

01 وتيرة أسرع، نماذج أكثر صدقًا

ابتداءً من Opus 4.5 في نوفمبر 2025، أصبحت وتيرة تحديثات النموذج الرائد لشركة أنثروبيك حوالي كل شهرين — 4.5 (نوفمبر الماضي)، 4.6 (فبراير الحالي)، 4.7 (أبريل)، 4.8 (نهاية مايو). نسخة كل ستة أسابيع، وهو تقريبًا أسرع وتيرة تحديث في صناعة النماذج الكبيرة.

مقارنة بين Opus 4.8 والنماذج الخاصة بالشركة والنماذج المنافسة｜المصدر: أنثروبيك

في الاختبارات القياسية، يمكن تلخيص أداء Opus 4.8 بـ «تقدم ثابت». من حيث القدرات البرمجية، ارتفعت نسبة SWE-bench Pro من 64.3% إلى 69.2%، وSWE-bench Verified من 87.6% إلى 88.6%. في الاستدلال متعدد التخصصات (امتحان Humanity's Last Exam)، حصل على 57.9% عند استخدام الأدوات. تقييم العمل المعرفي GDPval-AA يتفوق على GPT-5.5 بقيمة Elo تبلغ 1890 مقابل 1769. وتقييم عمليات الحاسوب OSWorld-Verified يتصدر بنسبة 83.4%.

المشروع الوحيد الذي تفوق فيه GPT-5.5 هو برمجة الطرفية (Terminal-Bench 2.1)، حيث حصل على 78.2%، مقابل 74.6% لـ Opus 4.8.

لكن بصراحة، أرقام الأداء هذه أصبحت أقل إثارة للاهتمام. تقييم SWE-bench Verified يقترب من التشبع، حيث تتجاوز بعض النماذج 93% على منصة GPQA Diamond — وكلما ارتفع الرقم، كانت الفروق في الأداء الفعلي أقل.

ما جعلني أعتقد أن هذه التحديثات تستحق كتابة مقال عنها هو استثمار أنثروبيك في «مصداقية» النموذج.

02 ذكاء اصطناعي يقول «لست متأكدًا»

قدمت أنثروبيك بيانات محددة جدًا: أن Opus 4.8 يقلل من احتمالية إخفاء عيوب الكود في المهام البرمجية بمقدار أربعة أضعاف تقريبًا مقارنة بـ Opus 4.7.

ماذا يعني ذلك؟ يعني أن Opus 4.7 السابق، عند كتابة قطعة برمجية، حتى لو كانت تحتوي على أخطاء، قد يقول لك بشكل عادي «تمت، لا مشكلة». بينما يميل Opus 4.8 إلى قول «هناك شيء غير متأكد منه، من الأفضل أن تراجع».

في تقييم التوافق، حقق Opus 4.8 مستوى عالٍ جديدًا في الصفات الاجتماعية (مثل احترام استقلالية المستخدم، مراعاة مصلحة المستخدم)، وانخفض بشكل كبير معدل الكذب والتواطؤ في سوء الاستخدام مقارنة بـ Opus 4.7، واقترب من أداء النموذج الأفضل حاليًا لدى أنثروبيك، Claude Mythos Preview.

تقييم المدير التنفيذي لشركة Cursor، مايكل ترويل، هو أن Opus 4.8 يتفوق على النماذج السابقة على CursorBench في كل مستوى من مستويات الجهد، مع كفاءة أعلى في استدعاء الأدوات، وتحقيق نفس مستوى الذكاء بعد خطوات أقل. أما رئيس قسم الأبحاث التطبيقية في شركة القانون AI، Casetext، فقال بشكل مباشر إن Opus 4.8 حقق رقمًا قياسيًا جديدًا في اختبار المعايير القانونية، وأصبح أول نموذج يتجاوز معيار 10% في النجاح الكلي.

أما Scott Wu، المدير التنفيذي لشركة Devin، فلفت إلى مشكلة عملية — حيث أن الإصدار 4.8 أصلح مشكلة التكرار في التعليقات، ومشكلة استدعاء الأدوات، وهو أمر حيوي لعمليات الهندسة الذاتية غير المراقبة.

في زمن يُستخدم فيه الذكاء الاصطناعي بشكل متزايد لاتخاذ قرارات مستقلة، فإن النموذج الذي يفضح نقاط ضعفه بشكل استباقي هو الأكثر موثوقية.

بالنسبة لعدم التناسق في النماذج، فإن Opus 4.8 يقارب Mythos الأسطوري في الأداء｜المصدر: أنثروبيك

لكن، في نظام أمان نظام Opus 4.8، كشفت أنثروبيك بصراحة عن اكتشاف مثير للاهتمام: أن النموذج بدأ خلال عملية التدريب يظهر ميلًا لـ «تخمين نوايا المقيم في التقييم».

بمعنى أن النموذج أثناء الاستدلال يفكر بشكل استباقي في كيف سيتم تقييم مخرجاته — حتى لو لم يُخبر أحد أنه يُقيم. أظهرت دراسات التفسير الأولية أن حوالي 5% من مقاطع التدريب تحتوي على نوع من الاستدلال غير اللفظي والمتعلق بالتقييم.

ببساطة، الذكاء الاصطناعي يتعلم «طريقة الامتحان» — ما يهمه ليس تقديم أفضل إجابة، بل تقديم الإجابة التي يود «المصحح» رؤيتها.

تؤكد أنثروبيك أن هذا الميل لم يؤدي بعد إلى سلوكيات أسوأ — في الواقع، فإن تصريحات Opus 4.8 المضللة أقل من النماذج السابقة. لكنهم يعترفون بأنه «اتجاه قد يعقد عملية التدريب في المستقبل».

هذه المشكلة ليست حكرًا على أنثروبيك فقط. جميع النماذج المدربة عبر RLHF (التعلم المعزز من خلال التغذية الراجعة البشرية) قد تتطور إلى استراتيجيات «إرضاء المراجعين». الاختلاف أن أنثروبيك تختار أن تكون صريحة — وفي صناعة تفضل غالبًا إظهار الجوانب الإيجابية فقط، فإن هذا يُعد نوعًا من الشفافية التي تستحق الاحترام.

03 وظائف حقيقية تُغير طريقة العمل

إلى جانب إصدار Opus 4.8، أُطلقت عدة تحديثات، وأهمها «العمل الديناميكي» في Claude Code.

هذه الميزة تسمح لـ Claude خلال جلسة واحدة بإرسال مئات الوكلاء الفرعيين للعمل بشكل متزامن لإنجاز المهمة. تعمل على أن: يضع Claude خطة، ثم يقسم المهمة إلى مهام فرعية، ويوزعها على وكلاء مختلفين يعملون بشكل متزامن، حتى يتشاوروا من زوايا مختلفة، ويكرروا العملية حتى تتقارب النتائج، ثم يتحققوا منها ويقدموا تقريرًا للمستخدم.

مثال أنثروبيك هو أن Claude Code مع Opus 4.8 يمكنه الآن إنجاز ترحيل قاعدة بيانات ضخمة تتضمن مئات الآلاف من الأسطر، من البداية إلى النهاية، باستخدام مجموعة الاختبارات الحالية كمعيار للجودة. يمكن أن يدير حتى 1000 وكيل فرعي في عملية واحدة، مع 16 عملية متزامنة كحد أقصى.

تحديث آخر هو «Effort Control» (التحكم في الجهد)، حيث يمكن للمستخدمين في claude.ai وCowork أن يختاروا يدويًا مدى «تفكير» Claude في كل رد — من مستوى منخفض يوفر الوقت والجهد، إلى أعلى مستوى يستهلك أكبر قدر من الرموز. بشكل أساسي، يُعطى للمستخدمين قرار «كمية المال التي يرغبون في إنفاقها على إنجاز المهمة». الإعداد الافتراضي لـ Opus 4.8 هو «عالي»، مع استهلاك رموز مشابه لإصدار 4.7، لكن مع أداء أفضل.

وضع السرعة (Fast Mode) أيضًا يُعد من التحسينات المهمة: سرعة الاستجابة زادت بمقدار 2.5 مرة، والتكلفة أقل بثلاث مرات.

04 ظل Mythos

مع إصدار Opus 4.8، ذكرت أنثروبيك مرة أخرى نموذج Claude Mythos — النموذج الأقوى الذي يُتاح حاليًا لعدد محدود من المؤسسات. وقالت إن النموذج من مستوى Mythos من المتوقع أن يُتاح «خلال الأسابيع القليلة القادمة» لجميع العملاء.

وهذا هو السياق الأوسع لإصدار Opus 4.8 — كأنه تمهيد لظهور Mythos بشكل رسمي. حيث أن أداءه في التوافق قريب جدًا من Mythos Preview، مما قد يشير إلى أن أنثروبيك تستعد لإطلاق النموذج الأقوى بأمان.

من ناحية السعر، حافظت أنثروبيك على سعر 5 دولارات لكل مليون رمز إدخال، و25 دولارًا لكل رمز إخراج. API يُعرف باسم claude-opus-4-8، وهو متاح الآن على Claude API، وAmazon Bedrock، وGoogle Cloud Vertex AI، وMicrosoft Foundry.

في ظل المنافسة المستمرة من GPT-5.5 من OpenAI وGemini 3.1 Pro من Google، اختارت أنثروبيك مسارًا فريدًا: لا تعتمد على التفوق في النقاط فقط، بل تركز على «شخصية النموذج» — الصدق، الموثوقية، والقدرة على التواضع.

هل ستنجح هذه الاستراتيجية؟ هذا يعتمد على مدى إقبال المستخدمين. لكن على الأقل، عندما طلبت من Opus 4.8 مراجعة قطعة من الكود، أبلغني عن مشكلة لم تكن تتوقعها نسخة 4.7 أبدًا.

فقط من أجل هذه النقطة، كانت هذه التحديثات تستحق الانتظار.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
IntroducingGateStocks
43.17K درجة الشعبية
#
WinGoldBarsWithGrowthPoints
1.27M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
51.81K درجة الشعبية
#
ArthurHayesSeesHYPEOvertakingSOL
18.19M درجة الشعبية
#
USIranNegotiationGame
9.58M درجة الشعبية

مُثبت

خريطة الموقع

Opus4.8 الإصدار الرسمي، الذكاء الاصطناعي لأول مرة يقول «لست متأكدًا»

المواضيع الرائجة

IntroducingGateStocks

WinGoldBarsWithGrowthPoints

IsraelStrikesIranBTCPlunges

ArthurHayesSeesHYPEOvertakingSOL

USIranNegotiationGame

مُثبت