الفصل التام بين الرؤية واللغة، يعني أن التفاعل بين الإنسان والآلة قد يتحول في المستقبل إلى حوار محض يقوده العرض، وسيشهد نمط التفاعل تغييرات جذرية.

شاهد النسخة الأصلية
CoinNetwork
موقع Coinjie News، أشارت AI Auntie في بودكاست Latent Space إلى أن نماذج الفيديو والصور الحالية ليست حقًا تفهم العالم الفيزيائي، وأن نماذج الانتشار في جوهرها مجرد مُحسِّن بكسل لا يمتلك القدرة على الإدراك الفيزيائي. على سبيل المثال، نموذج Cosmos من إنفيديا، الذي يتحمل مسؤولية تصيير الصورة، يضم فقط 7 مليارات من المعاملات، في حين أن المركز الذكي الحقيقي هو نموذج اللغة الكبير (LLM) الذي يعمل كمُعيد كتابة لمفاتيح التوجيه. تعتمد جودة المنطق والتوافق في الفيديو النهائي بشكل شبه كامل على جودة إعادة كتابة نموذج اللغة لمفاتيح التوجيه، وليس على نموذج الانتشار نفسه. هذا الفصل بين الصورة واللغة ينبئ بأن التفاعل بين الإنسان والآلة سيشهد إعادة هيكلة جذرية.
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • مُثبت