العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
CFD
مشتقات CFD للأسهم الأمريكية
الأسهم الأمريكية
وصول إلى الأسهم الأمريكية وصناديق ETF الحقيقية
أسهم هونغ كونغ
تداول أسهم عالية الجودة مدرجة في هونغ كونغ
الأسهم الكورية
SK Hynix
تداول الأسهم الكورية الحقيقية واستثمر في الأصول الشائعة
العقود الآجلة للأسهم
رافع مالية عالية، وتداول على مدار 24/7
الأسهم المُرمَّزة
مدعومة بأصول أسهم حقيقية
IPO Access
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
GUSD
سك GUSD للحصول على عوائد أصول العالم الحقيقي (RWA) للخزانة
أنشطة الأسهم
تداول الأسهم الرائجة واحصل على إنزالات جوية سخية
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
IPO Access
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
Google Vision Banana: "لحظة GPT-3" في الرؤية الحاسوبية؟ نموذج توليد الصور يتغلب على نموذج الفهم البصري المتخصص
ME News رسالة، في 23 أبريل (UTC+8)، وفقًا لمراقبة Beating، نشر فريق Google (بما في ذلك He Kaiming وXie Saining وآخرون) ورقة بحثية تقترح Vision Banana، حيث قاموا بضبط دقيق خفيف على نموذج توليد الصور الخاص بهم Nano Banana Pro (أي Gemini 3 Pro Image) لتحويله إلى نموذج فهم بصري عام. الفكرة الأساسية هي توحيد مخرجات جميع المهام البصرية كصور RGB، بحيث يتم إنجاز مهام الإدراك مثل التجزئة وتقدير العمق وتقدير الاتجاهات السطحية من خلال توليد الصور، دون الحاجة إلى تصميم بنية مخصصة أو خسارة تدريب لكل نوع من المهام.
غطت التقييمات فئتين رئيسيتين من المهام: تجزئة الصور والاستدلال الهندسي ثلاثي الأبعاد. في جانب التجزئة، تجاوز التجزئة الدلالية (تعيين فئة لكل بكسل في الصورة، مثل "الطريق" و"المشاة" و"المركبات") نموذج التجزئة المتخصص SAM 3 بنسبة 4.7 نقطة مئوية على Cityscapes؛ كما تجاوز تجزئة التعبير المرجعي (العثور على الكائن المقابل وتجزئته بناءً على وصف اللغة الطبيعية، مثل "الكلب الذي يرتدي قبعة على اليسار") وكيل SAM 3. لكنه لا يزال متخلفًا عن SAM 3 في تجزئة المثيلات (تمييز الأفراد المختلفين من نفس الفئة، مثل تمييز كلاب الخمسة في الصورة). في الجانب ثلاثي الأبعاد، حقق تقدير العمق المتري (حساب المسافة الفعلية من كل بكسل إلى الكاميرا من صورة واحدة) متوسط دقة 0.929 على أربعة مجموعات بيانات قياسية، متجاوزًا 0.918 لنموذج Depth Anything V3 المتخصص، وتم تدريبه بالكامل على بيانات تركيبية، دون استخدام بيانات عمق حقيقية، ولا يحتاج إلى معلمات الكاميرا أثناء الاستدلال. حقق تقدير الاتجاه السطحي (استدلال اتجاه سطح الكائن) أفضل النتائج على ثلاثة معايير داخلية.
الضبط الدقيق قام فقط بخلط كمية صغيرة من بيانات المهام البصرية في بيانات تدريب توليد الصور الأصلية، ولم تتأثر قدرة النموذج على توليد الصور بشكل أساسي: فقد تعادل مع Nano Banana Pro الأصلي في تقييم جودة التوليد. ترى الورقة أن التدريب المسبق على توليد الصور يلعب دورًا في المجال البصري مشابهًا لدور التدريب المسبق على توليد النصوص في مجال اللغة: فالنموذج، أثناء تعلمه توليد الصور، اكتسب بالفعل التمثيلات الداخلية اللازمة لفهم الصور، والضبط الدقيق يطلق هذه القدرات فقط. (المصدر: BlockBeats)