جوجل فيجن بانانا: هل هو "لحظة GPT-3" في الرؤية الحاسوبية؟ نموذج الصور الخام يتفوق على نماذج الفهم البصري المخصصة

robot
إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، نشرت فريق جوجل (بمن فيهم هيا كايمينغ، شي ساي نينغ وغيرهم) ورقة بحثية، قدمت Vision Banana، والتي تعتمد على نموذج توليد الصور الخاص بهم Nano Banana Pro (أي Gemini 3 Pro Image) لإجراء تعديل خفيف على الأوامر، وتحويله إلى نموذج فهم بصري عام. الطريقة الأساسية هي توحيد جميع مخرجات المهام البصرية في صورة RGB، بحيث يتم إكمال مهام الإدراك مثل التقسيم، وتقدير العمق، وتقدير خطوط الطول السطحي من خلال توليد الصور، دون الحاجة إلى تصميم بنية أو خسارة تدريب مخصصة لكل نوع من المهام.

شملت التقييمات مهام التقسيم والصياغة الهندسية ثلاثية الأبعاد. في جانب التقسيم، تفوقت التصنيفات الدلالية (وضع علامات على كل بكسل في الصورة بالفئة، مثل “الطريق”، “المشاة”، “المركبات”) على نموذج التقسيم المخصص SAM بنسبة 4.7 نقطة مئوية على مجموعة بيانات Cityscapes؛ كما تفوقت تقسيم التعبيرات التمثيلية (إيجاد وتقسيم الكائنات المطابقة بناءً على الوصف الطبيعي، مثل “الكلب الذي يرتدي قبعة على اليسار”) على SAM 3 Agent. لكن في التقسيم النموذجي (تمييز الأفراد من نفس الفئة، مثل تحديد الخمسة كلاب في الصورة بشكل منفصل)، لا تزال تتخلف عن SAM 3.3. في جانب الثلاثي الأبعاد، حققت دقة تقدير العمق (حساب المسافة الفعلية لكل بكسل من الكاميرا من صورة واحدة) معدل دقة متوسط قدره 0.929 على أربعة مجموعات بيانات قياسية، متفوقة على النموذج المخصص Depth Anything V3 الذي بلغ 0.918، مع العلم أنه تم تدريبه بالكامل على بيانات تركيبية دون استخدام بيانات عمق حقيقية، ولا يتطلب معلمات الكاميرا أثناء الاستنتاج. كما حققت تقديرات خطوط الطول السطحي (تحديد اتجاه سطح الجسم) أداءً ممتازًا على ثلاثة معايير داخلية.

التعديل الخفيف هو فقط دمج كمية صغيرة من بيانات المهام البصرية في بيانات تدريب توليد الصور الأصلية، مع الحفاظ على قدرة النموذج على توليد الصور بشكل أساسي دون تأثير: حيث تساوى جودة التوليد مع Nano Banana Pro الأصلي في تقييم جودة التوليد. وترى الورقة أن دور التدريب المسبق على توليد الصور في المجال البصري يشبه دور التدريب المسبق على توليد النصوص في المجال اللغوي: فخلال تعلم النموذج كيفية توليد الصور، اكتسب تمثيلات داخلية ضرورية لفهم الصور، والتعديل على الأوامر هو مجرد إطلاق لها.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت