Anthropic تطلق رسميًا Claude Sonnet 5، وتظهر نتائج الاختبارات الرسمية أن العديد من مؤشراته تقترب من الرائد Opus 4.8، مع تسعير API القياسي عند 3 دولارات لكل مليون رمز (إدخال) و15 دولارًا (إخراج)، وهو أرخص بحوالي 60% من Opus.
(خلفية سابقة: كاليفورنيا تعلن عن تعاون مع Anthropic: جميع الوكالات الحكومية يمكنها استخدام Claude بنصف السعر)
(خلفية إضافية: هل اقتربت نهاية عصر التسعير المرتفع للذكاء الاصطناعي؟ خمسة أسباب هيكلية لانخفاض أسعار الرموز)

أرخص بنسبة 60%، وأداء أقل قليلاً فقط، يبدو وكأنه قصة تجارية مثالية، لكن هل الأمر جيد حقًا إلى هذا الحد؟ في وقت سابق، أصدرت Anthropic رسميًا Claude Sonnet 5، وحددته كنموذج افتراضي لمستخدمي Free و Pro. من حيث التسعير، تسعير API القياسي هو 3 دولارات لكل مليون رمز إدخال و15 دولارًا للإخراج (فترة العرض الترويجي حتى 31 أغسطس هي 2 دولار / 10 دولارات)، مقارنة بـ 5 دولارات / 25 دولارًا للرائد Opus 4.8، أي أرخص بنحو 60%.

نتائج الاختبارات تقترب من الرائد

الأرقام الرسمية التي نشرتها Anthropic هي كما يلي، لكن جميع النتائج هي بيانات تقييم ذاتية رسمية، ولم يتم التحقق منها بشكل مستقل من طرف ثالث بعد:

في SWE-bench Pro (قدرة البرمجة الوكيلة)، حصل Sonnet 5 على 63.2%، بينما كان Sonnet 4.6 السابق 58.1%، والرائد Opus 4.8 69.2%.

Terminal-Bench 2.1 تشغيل الطرفية: Sonnet 5 80.4%، Opus 4.8 82.7%.

اختبار Humanity’s Last Exam متعدد التخصصات: Sonnet 5 مع استخدام الأدوات وصل إلى 57.4%، تقريبًا مساوٍ لـ 57.9% لـ Opus 4.8.

GDPval-AA v2 قدرة العمل المعرفي: Sonnet 5 سجل 1,618 نقطة، متجاوزًا Opus 4.8 الذي سجل 1,615 نقطة.

قدرة تشغيل الكمبيوتر شهدت أيضًا تقدمًا: في تقييم OSWorld-Verified، حصل Sonnet 5 على 81.2%، بينما كان الإصدار السابق 78.5%، والسيناريو الأساسي لهذا المعيار هو جعل النموذج يتحكم فعليًا في سطح المكتب، ويكمل مهام مثل لقطات الشاشة والسحب والإفلات ونقل البيانات بين التطبيقات في بيئة نظام تشغيل حقيقية، مما يقترب من صعوبة سير العمل الآلي الحقيقي.

بالإضافة إلى ذلك، يدعم Sonnet 5 نافذة سياق تصل إلى مليون رمز، وأقصى إخراج يصل إلى 128 ألف رمز. وهذا يعني أنه يمكن إدخال ما يعادل حجم نص حوالي 750 رواية، أو مجموعة كاملة من عقود شركة كبيرة، مما يسمح للنموذج بمقارنة المستندات وتلخيصها واتخاذ القرارات عبر ملفات متعددة في محادثة واحدة، دون الحاجة إلى معالجة مجزأة. هذه المواصفات مناسبة بشكل خاص للمهام الوكيلة طويلة الدورة، لأن النموذج لا يحتاج إلى "نسيان" السياق السابق في منتصف الطريق.

الفاتورة قد لا تكون "رخيصة" بالضرورة

يستخدم Sonnet 5 إصدارًا محدثًا من tokenizer. ببساطة، tokenizer هو طريقة تقطيع النص إلى رموز، وإذا تغيرت طريقة التقطيع، يختلف عدد الرموز المحسوبة لنفس النص، وبالتالي تتغير الفاتورة.

توضح Anthropic أنه مع tokenizer الجديد، قد ينتج نفس الإدخال عددًا من الرموز يتراوح بين 1.0 إلى 1.35 ضعفًا، حسب المحتوى. تدعي الشركة رسميًا أن التسعير قد تم تعديله ليكون "محايدًا تقريبًا من حيث التكلفة"، لكنها توصي المستخدمين ذوي حركة المرور العالية بإجراء اختبارات مرجعية خاصة بهم، حيث قد لا تنخفض الفاتورة وقد ترتفع.

فيما يتعلق بالأمان، يشير تقرير Anthropic إلى أن Sonnet 5 لديه ميل أقل للهلوسة والتملق مقارنة بـ Sonnet 4.6، وقدرة أفضل على رفض الطلبات الضارة. لكن المقارنة الأمنية نسبية: لا يزال Sonnet 5 يسجل معدل حدوث سلوك غير لائق أعلى من Opus 4.8 الأقوى، وأيضًا أعلى من Claude Mythos Preview المقيد بشدة.

في تقييم استغلال الثغرات الأمنية لـ Firefox 147 بالتعاون مع Mozilla، فشل Sonnet 5 في إنتاج استغلال قابل للاستخدام (0%)، لكن نسبة النجاح الجزئي بلغت 13.2%، أعلى من 8.8% لـ Sonnet 4.6. هذان الرقمان لا يزالان بعيدين عن 68.8% لـ Opus 4.8، لكن Anthropic قامت بتمكين الحماية الأمنية للشبكة بشكل افتراضي.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateCompletesDividendDistribution
556.96K درجة الشعبية
#
StrategyBuybackSurges12%
180.24K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
67.08K درجة الشعبية
#
PredictWorldCupShare20000U
517.26K درجة الشعبية
#
TrumpDisclosesOver100MBTCETH
3.83M درجة الشعبية

مُثبت

خريطة الموقع

كلود سونيت 5 متاح الآن: Anthropic تزعم أن أدائه يقترب من Opus في عدة مجالات، ولكن تكلفة API أرخص بنسبة 60%.

نتائج الاختبارات تقترب من الرائد

الفاتورة قد لا تكون "رخيصة" بالضرورة

المواضيع الرائجة

GateCompletesDividendDistribution

StrategyBuybackSurges12%

IsraelStrikesIranBTCPlunges

PredictWorldCupShare20000U

TrumpDisclosesOver100MBTCETH

مُثبت