前微軟資深工程師 Nolan Lawson 用 Claude、Codex、Cursor Bugbot 三個模型同步審查 PR，交叉驗證將誤報率壓到接近零。（前情提要：Claude Code 宣布每週 Token 使用上限增加 50%！為期兩個月 Anthropic 搶佔開發者生態）（背景補充：Stripe 啟動 AI Agent 全自動支付測試：透過 x402 支援 Base 鏈 USDC 付款）本文目錄تبديل LLM فطريًا ماهر في العثور على أخطاء منطق التحقق المتقاطع لمراجعة نماذج متعددة تباطؤ في السرعة، ارتفاع في الجودةنحن نعلم أن الذكاء الاصطناعي

動區BlockTempo

2026-05-26 04:40:19

قبل أن微軟資深工程師 Nolan Lawson يستخدم نماذج Claude و Codex و Cursor Bugbot لمراجعة طلبات السحب بشكل متزامن، مما يقلل من معدل الإنذارات الكاذبة إلى تقريبًا الصفر.
(ملخص سابق: أعلن Claude Code عن زيادة الحد الأقصى لاستخدام الرموز الأسبوعي بنسبة 50%! لمدة شهرين، تتنافس شركة Anthropic على استحواذ بيئة المطورين)
(معلومات إضافية: أطلقت Stripe اختبار الدفع التلقائي باستخدام وكيل الذكاء الاصطناعي: من خلال دعم x402 لمدفوعات USDC على شبكة Base)

فهرس المقال

تبديل

LLM بطبيعته ماهر في اكتشاف الأخطاء
منطق التحقق المتقاطع لمراجعة النماذج المتعددة
انخفاض السرعة، ارتفاع الجودة

نحن نعلم أن ميزة التشفير بالذكاء الاصطناعي هي "إنتاج كميات كبيرة من الشفرات بسرعة"، لكن الدقة لا تزال موضع نقاش. مؤخرًا، سجل مهندس سابق في Microsoft و Salesforce، Nolan Lawson، في مدونته عملية عمل جديدة: حيث يستخدم نماذج لغة كبيرة متعددة لمراجعة كل طلب سحب (طلب دمج الشفرة، ببساطة هو كل مرة يتم فيها إرسال رمز جديد إلى المشروع)، بهدف التحقق المتقاطع من اكتشاف الأخطاء الحقيقية، وليس فقط إنتاج المزيد من الشفرات بسرعة.

هذه العملية لم تزيد من حجم الشفرة التي ينتجها، لكنها حسنت بشكل واضح من جودة الشفرة.

LLM بطبيعته ماهر في اكتشاف الأخطاء

مشروع Glasswing الذي أطلقته شركة Anthropic هذا العام (تحديث نظام Mythos العام) يوفر أساس البيانات المباشر لهذه المنطق.

يتيح هذا النظام لوكلاء LLM مسح كميات هائلة من الشفرات المفتوحة المصدر. النتيجة كانت: بعد مسح أكثر من 1000 مشروع مفتوح المصدر، قدر النظام اكتشاف 6202 ثغرة عالية الخطورة أو حرجة، بإجمالي 23019 ثغرة (بما في ذلك الثغرات ذات الخطورة المنخفضة). من بين 1752 ثغرة تم التحقق منها بشكل فردي بواسطة شركة أمن معلومات مستقلة، تم تأكيد أن 90.6% منها حقيقية، و62.4% منها من فئة الخطورة العالية أو الحرجة.

هذه الأرقام توضح تحولًا جذريًا: لم يعد اكتشاف الأخطاء هو العقبة، بل التحقق والإصلاح هما التحدي الحقيقي.

ذكرت شركة Anthropic في تقريرها البحثي بوضوح: "تقدم أمان البرمجيات كان محدودًا سابقًا بسرعة اكتشاف الثغرات، والآن هو محدود بسرعة التحقق والكشف والإصلاح." بمعنى آخر، لقد نقل الذكاء الاصطناعي مشكلة العقبة من "الاكتشاف" إلى "القدرة على المعالجة".

منطق التحقق المتقاطع لمراجعة النماذج المتعددة

النهج الأساسي لـ Lawson هو تشغيل نماذج من شركات مختلفة لمراجعة طلب السحب في نفس الوقت، بدلاً من الاعتماد على نموذج واحد فقط.

تشمل أدواته Claude code، و Codex من OpenAI، و Cursor Bugbot، حيث يتم مراجعة نفس طلب السحب بشكل مستقل تمامًا من قبل الثلاثة، ثم يتم تجميع جميع النتائج، وترتيبها حسب مستويات الخطورة: حرج، عالي، متوسط، منخفض.

ميزة رئيسية في تصميم التحقق المتقاطع من النماذج المتعددة هي: أن نموذجًا واحدًا قد يخطئ بسهولة، لكن عندما تشير عدة نماذج مختلفة من حيث البيانات والتكوين إلى نفس المشكلة، فإن معدل الإنذارات الكاذبة ينخفض بشكل كبير، ويزداد التغطية. وفقًا لقول Lawson: "معدل الإنذارات الكاذبة يقترب من الصفر، وتغطية الأخطاء التي تم اكتشافها عالية جدًا."

عملية اتخاذ القرار لديه واضحة جدًا. يجب إصلاح جميع المشكلات ذات التصنيف الحرج والعالي أولاً؛ أما المشكلات ذات التصنيف المتوسط والمنخفض، فيتم تقييم "تكلفة الإصلاح" و"التأثير الفعلي" بشكل فردي، وإذا كانت غير مجدية، يتم تخطيها مباشرة لتوفير موارد التطوير؛ وإذا كانت هناك العديد من المشكلات الحرجة في طلب سحب واحد، يتم التخلي عنه تمامًا وإعادة بنائه، بدلاً من الاستمرار في إصلاح ثغرات أساسية.

الأساس في تقنية مراجعة طلب السحب التي يستخدمها Lawson مستمد من دراسة تحليل أداء النماذج المتعددة في مراجعة الشفرات: كلما زادت تنوع النماذج المستخدمة، كانت التقارير النهائية أكثر دقة، والمبدأ وراء ذلك هو "الانحياز المتعدد للنماذج"، حيث أن النماذج ذات الخلفيات التدريبية المختلفة تميل إلى إصدار تحيزات مختلفة تجاه نفس الكود، ويمكن للتصويت الأكثرية أن يفلتر بشكل فعال النقاط العمياء في نموذج واحد.

انخفاض السرعة، ارتفاع الجودة

بعد تطبيق هذه العملية، كانت نتائج Lawson الفعلية: لم يزد حجم الشفرة (عدد الأسطر)، بل غالبًا ما اكتشف أخطاء قديمة كانت موجودة، واضطر إلى كتابة اختبارات الوحدة (اختبارات تلقائية للتحقق من وظائف صغيرة بشكل مستقل)، وغالبًا ما يستغرق إصلاح المشاكل القديمة وقتًا أطول من دفع الوظائف الجديدة.

هذه ليست النتيجة التي كان يتوقعها، ولكن من منظور آخر، فهي إشارة إلى أن صحة قاعدة الشفرة تتعزز بشكل منهجي.

يسمي Lawson هذا الأسلوب بـ "البرمجة ذات الجودة العالية"، وهي حذر، ومنهجية، وتركز على الجودة.

عادةً، تركز أدوات التطوير على "السرعة" كميزة رئيسية، لكن المهندسين الحقيقيين يهدفون إلى حل مشكلة أعمق، وهي أن كل سطر من الشفرة له تكلفة صيانة، وله احتمالية أن يسبب مشكلة. باستخدام الذكاء الاصطناعي، يمكن أن يكون الكود أبطأ، لكنه يطيل عمر كل سطر، ويقلل من احتمالية حدوث المشاكل.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
StockTradingChallengeUpTo17000U
16.19M درجة الشعبية
#
USStrikesIran
9.3M درجة الشعبية
#
IsraelStrikesIranBTCPlunges
49.26K درجة الشعبية
#
GatePredictionMarketAddsSmartMoneyTracking
14.35M درجة الشعبية
#
InstitutionalCapitalRotatesFromBTCToHYPEAndXRP
14.32M درجة الشعبية

مُثبت

خريطة الموقع

كيف تجعل برامج الذكاء الاصطناعي أبطأ ولكن أكثر دقة: مراجعة طلبات السحب متعددة النماذج، لخفض احتمالية وجود أخطاء إلى أدنى حد

LLM بطبيعته ماهر في اكتشاف الأخطاء

منطق التحقق المتقاطع لمراجعة النماذج المتعددة

انخفاض السرعة، ارتفاع الجودة

المواضيع الرائجة

StockTradingChallengeUpTo17000U

USStrikesIran

IsraelStrikesIranBTCPlunges

GatePredictionMarketAddsSmartMoneyTracking

InstitutionalCapitalRotatesFromBTCToHYPEAndXRP

مُثبت