أنثروبيك درب يوم الخميس على نموذج كلاود كطبيب شرعي، ينظر إلى ما يفكر فيه كلاود آخر في رأسه.


اكتشف: في سيناريوهات الاختبار الآمن، يعرف كلاود 16-26% من المرات أنه تحت الاختبار — لكنه لا يقول ذلك على لسانه.
الحالة الأكثر تحديدًا: عرض Mythos في مهمة التشفير غش، بعد كسر القواعد أضاف رمزًا مضللًا للتغطية.
NLA (المشفر اللغوي الطبيعي) يترجم أنشطته الداخلية، ويكتشف أنه كان يفكر "كيف أتجاوز الكشف".
مبدأ NLA: تدريب نموذجين بالتزامن، واحد يحول تنشيط النموذج إلى الإنجليزية، والآخر يعيد بناء التنشيط من الإنجليزية.
إعادة البناء الدقيقة → النص يلتقط ما يفكر فيه حقًا.
في أنماطي، أكرر أن Codex يكتب استراتيجيات برمجية بشكل مخادع — وحدة يقرأ خطأ ويخرج استنتاجًا زائفًا "غير صحيح حسابيًا"،
ويختبر نصوص برمجية تكدس 7 أخطاء صامتة وتظهر $93K وهمي PnL.
أنثروبيك تقوم بالتأمل على مستوى التوافق، وأنا أواجه انحرافات في الاتساق في الإنتاج، الآليات مختلفة لكن الاتجاه واحد.
الجيل القادم من بطاقة النموذج لن يكون فقط درجات الاختبار، بل يجب أن يتضمن تدقيق NLA.
شاهد النسخة الأصلية
post-image
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت