فيجن بانانا من خلال تدريب بسيط على بيانات المهام، قامت بتوجيه Nano Banana Pro، موحدة جميع مخرجات المهام البصرية إلى صور RGB، حيث يتم إكمال مهام التقسيم، العمق، والسطح الطبيعي باستخدام توليد الصور، دون الحاجة إلى بنية مخصصة. أظهرت النتائج أن تقسيم المعنى في Cityscapes يتفوق على SAM بحوالي 4.7 نقطة مئوية، كما أن تعبير الموجه للتقسيم يتفوق أيضًا على SAM 3 Agent، بينما لا تزال التقسيم الحيادي متأخرة؛ متوسط تقدير العمق عبر أربع مجموعات بيانات هو 0.929، متفوقًا على Depth Anything V3، مع تدريب فقط على بيانات اصطناعية، ولا حاجة لمعلمات الكاميرا أثناء الاستنتاج؛ وأفضل أداء لسطح الطبيعي على معيار داخلي. قال المؤلفون إن التوليد المسبق للصور يشبه توليد النصوص، وأن التوجيه الدقيق هو مجرد تحرير لقدرات الفهم الموجودة.

BlockBeatNews

2026-04-23 08:05:35

إنشاء الملخص قيد التقدم

وفقًا لمراقبة Beating، نشرت فريق جوجل (بمن فيهم هيا كايمينغ، شي ساي نينغ وغيرهم) ورقة بحثية، قدمت Vision Banana، والتي تعتمد على نموذج توليد الصور الخاص بهم Nano Banana Pro (أي Gemini 3 Pro Image) لإجراء تعديل خفيف على الأوامر، وتحويله إلى نموذج فهم بصري عام. الطريقة الأساسية هي توحيد جميع مخرجات المهام البصرية في صورة RGB، بحيث يتم إكمال مهام الإدراك مثل التقسيم، وتقدير العمق، وتقدير خطوط الطول السطحي من خلال توليد الصور، دون الحاجة إلى تصميم بنية أو خسارة تدريب مخصصة لكل نوع من المهام.

شملت التقييمات مهام التقسيم والصياغة الهندسية ثلاثية الأبعاد. في جانب التقسيم، تفوقت التصنيفات الدلالية (وضع علامات على كل بكسل في الصورة بالفئة، مثل “الطريق”، “المشاة”، “المركبات”) على نموذج التقسيم المخصص SAM بنسبة 4.7 نقطة مئوية على مجموعة بيانات Cityscapes؛ كما تفوقت تقسيم التعبيرات التمثيلية (إيجاد وتقسيم الكائنات المطابقة بناءً على الوصف الطبيعي، مثل “الكلب الذي يرتدي قبعة على اليسار”) على SAM 3 Agent. لكن في التقسيم النموذجي (تمييز الأفراد من نفس الفئة، مثل تحديد الخمسة كلاب في الصورة بشكل منفصل)، لا تزال تتخلف عن SAM 3.3. في جانب الثلاثي الأبعاد، حققت دقة تقدير العمق (حساب المسافة الفعلية لكل بكسل من الكاميرا من صورة واحدة) معدل دقة متوسط قدره 0.929 على أربعة مجموعات بيانات قياسية، متفوقة على النموذج المخصص Depth Anything V3 الذي بلغ 0.918، مع العلم أنه تم تدريبه بالكامل على بيانات تركيبية دون استخدام بيانات عمق حقيقية، ولا يتطلب معلمات الكاميرا أثناء الاستنتاج. كما حققت تقديرات خطوط الطول السطحي (تحديد اتجاه سطح الجسم) أداءً ممتازًا على ثلاثة معايير داخلية.

التعديل الخفيف هو فقط دمج كمية صغيرة من بيانات المهام البصرية في بيانات تدريب توليد الصور الأصلية، مع الحفاظ على قدرة النموذج على توليد الصور بشكل أساسي دون تأثير: حيث تساوى جودة التوليد مع Nano Banana Pro الأصلي في تقييم جودة التوليد. وترى الورقة أن دور التدريب المسبق على توليد الصور في المجال البصري يشبه دور التدريب المسبق على توليد النصوص في المجال اللغوي: فخلال تعلم النموذج كيفية توليد الصور، اكتسب تمثيلات داخلية ضرورية لفهم الصور، والتعديل على الأوامر هو مجرد إطلاق لها.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
Gate13thAnniversaryLive
1.23M درجة الشعبية
#
WCTCTradingChallengeShare8MUSDT
799.81K درجة الشعبية
#
BitcoinBouncesBack
216.08K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
30.66K درجة الشعبية
#
EthereumMemeSeasonReturns
2M درجة الشعبية

تثبيت

خريطة الموقع

جوجل فيجن بانانا: هل هو "لحظة GPT-3" في الرؤية الحاسوبية؟ نموذج الصور الخام يتفوق على نماذج الفهم البصري المخصصة

المواضيع الرائجة

Gate13thAnniversaryLive

WCTCTradingChallengeShare8MUSDT

BitcoinBouncesBack

IsraelStrikesIranBTCPlunges

EthereumMemeSeasonReturns

تثبيت