أطلقت جوجل ReasoningBank، حيث يستخلص الوكيل استراتيجيات الاستدلال من تجارب النجاح والفشل

robot
إنشاء الملخص قيد التقدم

وفقًا لبيانات شبكة العملات المشفرة، ووفقًا لمراقبة Beating، أصدرت معهد أبحاث جوجل إطار عمل الذاكرة للذكاء الاصطناعي ReasoningBank، الذي يسمح للكيانات الذكية المدفوعة بالنماذج الكبيرة بالتعلم المستمر بعد النشر. النهج الأساسي هو تلخيص تجارب النجاح والفشل في المهام السابقة وتحويلها إلى استراتيجيات استنتاج عامة تُخزن في قاعدة الذاكرة، بحيث يتم استرجاعها قبل تنفيذ مهمة مماثلة في المستقبل. نُشرت الورقة ذات الصلة في مؤتمر ICLR، والكود متاح على GitHub كمصدر مفتوح. كانت هناك سابقًا طريقتان رئيسيتان لكل منهما عيوب: الأولى Synapse تسجل مسار الأفعال بالكامل، لكن الدقة عالية جدًا ويصعب نقلها؛ الثانية Agent Workflow Memory تستخلص سير العمل فقط من الحالات الناجحة. قام ReasoningBank بتعديل نقطتين: استبدال كائن التخزين من «تسلسل الأفعال» إلى «نمط الاستنتاج»، بحيث تتضمن كل ذاكرة عنوانًا، ووصفًا، ومحتوىً من ثلاثة أجزاء منظمة؛ كما أُدرجت مسارات الفشل أيضًا في عملية التعلم. يستخدم النموذج نموذجًا كبيرًا آخر لتقييم مسار التنفيذ ذاتيًا، حيث تُقسّم تجارب الفشل إلى قواعد لتجنب الأخطاء، مثل ترقية من «عندما ترى زر Load More تضغط عليه» إلى «أولاً تحقق من علامة الصفحة الحالية، لتجنب الوقوع في التمرير اللانهائي، ثم اضغط على تحميل المزيد». اقترحت الورقة أيضًا تقنية Memory-aware Test-time Scaling (MaTTS)، حيث يُخصص مزيد من القوة الحاسوبية أثناء الاستنتاج لمحاولة متكررة، ويتم حفظ عملية الاستكشاف في الذاكرة. التوسعة المتوازية تتيح للكيان الذكي تشغيل مسارات متعددة لنفس المهمة، من خلال المقارنة الذاتية لاستنتاج استراتيجيات أكثر استقرارًا؛ أما التوسعة التسلسلية فهي تحسين متكرر داخل مسار واحد، مع تسجيل الاستنتاجات الوسيطة في الذاكرة. على مقياسي WebArena لمهام المتصفح وSWE-Bench-Verified لمهام الكود، استخدمنا نموذج Gemini 2.5 Flash لإنشاء وكيل ReAct، ووجد أن ReasoningBank يتفوق على الخط الأساسي بدون ذاكرة بنسبة نجاح أعلى بمقدار 8.3% على WebArena، و4.6% على SWE-Bench-Verified، مع تقليل متوسط عدد الخطوات بمقدار حوالي 3 خطوات لكل مهمة؛ بعد تطبيق التوسعة المتوازية مع MaTTS (k=5)، زادت نسبة النجاح على WebArena بمقدار 3 نقاط مئوية، وانخفض عدد الخطوات بمقدار 0.4 خطوة أخرى.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت