العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
جوجل فيجن بانانا: هل هو "لحظة GPT-3" في الرؤية الحاسوبية؟ نموذج الصور الخام يتفوق على نماذج الفهم البصري المخصصة
وفقًا لمراقبة Beating، نشرت فريق جوجل (بمن فيهم هيا كايمينغ، شي ساي نينغ وغيرهم) ورقة بحثية، قدمت Vision Banana، والتي تعتمد على نموذج توليد الصور الخاص بهم Nano Banana Pro (أي Gemini 3 Pro Image) لإجراء تعديل خفيف على الأوامر، وتحويله إلى نموذج فهم بصري عام. الطريقة الأساسية هي توحيد جميع مخرجات المهام البصرية في صورة RGB، بحيث يتم إكمال مهام الإدراك مثل التقسيم، وتقدير العمق، وتقدير خطوط الطول السطحي من خلال توليد الصور، دون الحاجة إلى تصميم بنية أو خسارة تدريب مخصصة لكل نوع من المهام.
شملت التقييمات مهام التقسيم والصياغة الهندسية ثلاثية الأبعاد. في جانب التقسيم، تفوقت التصنيفات الدلالية (وضع علامات على كل بكسل في الصورة بالفئة، مثل “الطريق”، “المشاة”، “المركبات”) على نموذج التقسيم المخصص SAM بنسبة 4.7 نقطة مئوية على مجموعة بيانات Cityscapes؛ كما تفوقت تقسيم التعبيرات التمثيلية (إيجاد وتقسيم الكائنات المطابقة بناءً على الوصف الطبيعي، مثل “الكلب الذي يرتدي قبعة على اليسار”) على SAM 3 Agent. لكن في التقسيم النموذجي (تمييز الأفراد من نفس الفئة، مثل تحديد الخمسة كلاب في الصورة بشكل منفصل)، لا تزال تتخلف عن SAM 3.3. في جانب الثلاثي الأبعاد، حققت دقة تقدير العمق (حساب المسافة الفعلية لكل بكسل من الكاميرا من صورة واحدة) معدل دقة متوسط قدره 0.929 على أربعة مجموعات بيانات قياسية، متفوقة على النموذج المخصص Depth Anything V3 الذي بلغ 0.918، مع العلم أنه تم تدريبه بالكامل على بيانات تركيبية دون استخدام بيانات عمق حقيقية، ولا يتطلب معلمات الكاميرا أثناء الاستنتاج. كما حققت تقديرات خطوط الطول السطحي (تحديد اتجاه سطح الجسم) أداءً ممتازًا على ثلاثة معايير داخلية.
التعديل الخفيف هو فقط دمج كمية صغيرة من بيانات المهام البصرية في بيانات تدريب توليد الصور الأصلية، مع الحفاظ على قدرة النموذج على توليد الصور بشكل أساسي دون تأثير: حيث تساوى جودة التوليد مع Nano Banana Pro الأصلي في تقييم جودة التوليد. وترى الورقة أن دور التدريب المسبق على توليد الصور في المجال البصري يشبه دور التدريب المسبق على توليد النصوص في المجال اللغوي: فخلال تعلم النموذج كيفية توليد الصور، اكتسب تمثيلات داخلية ضرورية لفهم الصور، والتعديل على الأوامر هو مجرد إطلاق لها.