منذ إطلاق o1، أكبر نقطة ضعف هي أنه "ثرثار جداً".


كنت أريد فقط إصلاح خطأ بسيط، لكنه أعطاني ثلاث فقرات خلفية وحلين مختلفين بالإضافة إلى معالجة الأخطاء، وفي النهاية تمنى لي حظاً موفقاً.
كنت أبحث فقط عن خطأ إملائي في السطر 12، لكنني اضطررت إلى إعادة مراجعة معايير تسمية Python.
يجب تحميل هذا الخطأ لـ RLHF. المعلّقون يميلون إلى إعطاء درجات عالية للإجابات الطويلة، معتقدين أن الكثير من الكلمات يبدو احترافياً.
لذلك يحاول النموذج بجد تراكم "الدعاوى التي تبدو مفيدة"، بينما يتم تخفيف المعلومات الأساسية الفعلية.
انظر على الجانب الآخر، Claude أكثر حكمة بكثير في هذا الصدد، ويعرف ما طول الإجابة المناسب لكل سؤال.
الشيء الأكثر إيلاماً هو المحفظة: سعر o1 في الطرف الناتج هو $60/1M tokens، وعندما تكون مسألة بـ 100 token يمكن حلها، يتم تخفيفها إلى 500، مما يضاعف التكلفة خمس مرات.
الآن عند طرح السؤال يجب إضافة جملة خاصة مثل "الكود فقط"، وحتى هذا قد لا ينجح.
حالة النموذج الحالية هي: ذكاء عالي جداً، لكن الذكاء العاطفي معطل تماماً، ولا يعرف متى يجب أن يصمت.
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.46Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.45Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • تثبيت