محاكاة لأمازون وOpenAI، جوجل (GOOGL.US ) تطلق أدوات ذكاء اصطناعي متتالية: النموذج متعدد الأنماط Gemini Embedding 2 يُطلق رسميًا على الإنترنت

robot
إنشاء الملخص قيد التقدم

أطلقت شركة جوجل (GOOGL.US) يوم الثلاثاء أول نموذج ذكاء اصطناعي متعدد الوسائط، وهو نموذج Gemini Embedding 2، وهو أحدث نماذجها التي يمكنها تحويل النصوص والصور ومقاطع الفيديو والصوتيات والوثائق إلى مساحة تضمين موحدة.

وأوضحت جوجل في منشور على مدونتها: “يعمل Gemini Embedding 2 على تحويل النصوص والصور ومقاطع الفيديو والصوتيات والوثائق إلى مساحة تضمين موحدة، ويمكنه التقاط المعنى الدلالي في أكثر من مئة لغة.” وأضافت: “هذا يبسط العمليات المعقدة ويعزز أداء المهام المتعددة الوسائط في التطبيقات النهائية، بدءًا من التوليد المعزز بالبحث (RAG) والبحث الدلالي، إلى تحليل المشاعر وتجميع البيانات.”

وبصفته أحدث عضو في سلسلة نماذج الذكاء الاصطناعي Gemini، يدعم النموذج ما يصل إلى 8192 رمز نصي في الإدخال؛ ويمكنه معالجة ما يصل إلى 6 صور في كل طلب، ويدعم تنسيقات PNG وJPEG؛ كما يمكنه معالجة مقاطع فيديو تصل مدتها إلى 120 ثانية، ويدعم تنسيقات MP4 وMOV؛ ويستطيع مباشرة استيعاب ودمج بيانات الصوت دون الحاجة إلى تحويلها إلى نص؛ بالإضافة إلى إمكانية دمج مستندات PDF تصل إلى 6 صفحات مباشرة.

وأوضحت جوجل أن: “Gemini Embedding 2 ليس مجرد تحسين للنماذج التقليدية.” عند مقارنته مع نماذج أمازون (AMZN.US)، ونموذج Voyage، وغيرها من نماذج جوجل، قالت الشركة: “لقد وضع معايير جديدة للأداء في مجال الوسائط المتعددة، وأدخل قدرات صوتية قوية، وتفوق على النماذج الرائدة في مهام النص والصورة والفيديو. هذا التحسن القابل للقياس في الأداء، بالإضافة إلى قدرته الفريدة على التغطية المتعددة الوسائط، يمنح المطورين جميع الأدوات التي يحتاجونها لتلبية متطلبات التضمين المتنوعة لديهم.”

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • تثبيت