2026-03-18 04:28:38

منذ إطلاق o1، أكبر نقطة ضعف هي أنه "ثرثار جداً".

كنت أريد فقط إصلاح خطأ بسيط، لكنه أعطاني ثلاث فقرات خلفية وحلين مختلفين بالإضافة إلى معالجة الأخطاء، وفي النهاية تمنى لي حظاً موفقاً.
كنت أبحث فقط عن خطأ إملائي في السطر 12، لكنني اضطررت إلى إعادة مراجعة معايير تسمية Python.
يجب تحميل هذا الخطأ لـ RLHF. المعلّقون يميلون إلى إعطاء درجات عالية للإجابات الطويلة، معتقدين أن الكثير من الكلمات يبدو احترافياً.
لذلك يحاول النموذج بجد تراكم "الدعاوى التي تبدو مفيدة"، بينما يتم تخفيف المعلومات الأساسية الفعلية.
انظر على الجانب الآخر، Claude أكثر حكمة بكثير في هذا الصدد، ويعرف ما طول الإجابة المناسب لكل سؤال.
الشيء الأكثر إيلاماً هو المحفظة: سعر o1 في الطرف الناتج هو $60/1M tokens، وعندما تكون مسألة بـ 100 token يمكن حلها، يتم تخفيفها إلى 500، مما يضاعف التكلفة خمس مرات.
الآن عند طرح السؤال يجب إضافة جملة خاصة مثل "الكود فقط"، وحتى هذا قد لا ينجح.
حالة النموذج الحالية هي: ذكاء عالي جداً، لكن الذكاء العاطفي معطل تماماً، ولا يعرف متى يجب أن يصمت.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 2