مقدمة: في ساحة معركة النماذج الكبيرة متعددة الوسائط، سمع بعض الأشخاص عنها بالفعل. وفقًا لتقارير وسائل الإعلام الأجنبية، يبدو أن نموذج Gobi الجديد متعدد الوسائط من OpenAI قيد الإعداد. يبدو أن المواجهة بين Google وOpenAI أصبحت وشيكة.

مصدر الصورة: تم إنشاؤها بواسطة Unbounded AI

مع اقتراب فصل الخريف، دخلت معركة النماذج متعددة الوسائط بين Google وOpenAI أيضًا مرحلة شرسة.

في الأسبوع الماضي فقط، فتحت Google إمكانيات نموذجها الكبير متعدد الوسائط Gemini لبعض الشركات الخارجية.

وبطبيعة الحال، لن يقف OpenAI ساكناً وينتظر الموت. إنهم يتسابقون مع الزمن لدمج وظائف متعددة الوسائط في GPT-4، ويسعون جاهدين لإطلاق نموذج كبير متعدد الوسائط بوظائف مشابهة لـ Gemini، والقضاء على Google بضربة واحدة.

لقد تم عرض الوظيفة الأسطورية متعددة الوسائط في مؤتمر GPT-4 التابع لـ OpenAI والذي صدم العالم في مارس من هذا العام ——

ارسم رسمًا تخطيطيًا على الورق، والتقط صورة وأرسلها إلى GPT-4، وقل “اصنع لي موقع ويب بهذا التصميم”، وسيكتب رمز صفحة الويب على الفور.

أظهر Boss Greg Brockman شخصيًا على الإنترنت

ولكن بعد ذلك، بدا تعدد الوسائط وكأنه ومضة في المقلاة، ولم يسبق لأحد أن رأى وظيفة فيزيائية منتجة.

إذًا، هل ستأتي الحرب متعددة الوسائط بين Google وOpenAI أخيرًا؟

من خلال التنافس مع Google، تسارع شركة OpenAI إلى إطلاق نماذج كبيرة متعددة الوسائط

وفي مواجهة الشائعات التي تقول إن جوجل ستقضي على هذا القاتل الكبير، فمن المؤكد أن OpenAI لن تظل غير مبالية.

وفقًا لوسائل الإعلام الأجنبية The Information، فإن نموذجًا كبيرًا جديدًا متعدد الوسائط يسمى Gobi يخضع بالفعل لإعداد مكثف.

تخطط OpenAI لإطلاق LLM متعدد الوسائط قبل إصدار Gemini، مما يؤدي إلى هزيمة Google تمامًا.

جريج بروكمان من OpenAI ضد ديميس هاسابيس من جوجل

في الواقع، بعد إطلاق معاينة لميزة GPT-4 متعددة الوسائط في شهر مارس، أطلقت OpenAI هذه الميزة لشركة تدعى Be My Eyes، لكنها لم توفرها لشركات أخرى.

وكما يتضح من الاسم، تعمل هذه الشركة على تطوير تقنية تسمح للأشخاص المكفوفين أو ضعاف البصر بالرؤية بشكل أكثر وضوحًا.

في الآونة الأخيرة، تخطط OpenAI لطرح ميزة تسمى GPT-Vision على نطاق أوسع.

لماذا استغرق OpenAI وقتًا طويلاً؟

السبب الرئيسي هو أنهم يشعرون بالقلق من أن الوظائف المرئية الجديدة سيتم استخدامها من قبل المجرمين، مثل انتحال شخصية البشر عن طريق كسر رموز التحقق تلقائيًا، أو تتبع البشر من خلال التعرف على الوجه.

ومع ذلك، يبدو أن مهندسي OpenAI قد نجحوا في حل هذه المخاطر الأمنية القانونية.

وبالمثل، قال متحدث باسم جوجل أيضًا: اتخذت جوجل بعض الإجراءات لمنع إساءة استخدام جيميني.

وفي تعهد قدمته في يوليو/تموز الماضي، تعهدت جوجل بتطوير الذكاء الاصطناعي المسؤول في جميع منتجاتها.

هل يمكن أن يصبح جوبي GPT-5؟

بعد GPT-Vision، من المرجح أن تطلق OpenAI نموذجًا كبيرًا متعدد الوسائط أكثر قوة، يحمل الاسم الرمزي Gobi.

على عكس GPT-4، تم تصميم Gobi على نموذج متعدد الوسائط منذ البداية.

إذًا، هل جوبي هو GPT-5 الأسطوري؟

في الوقت الراهن، نحن لا نعرف. لا توجد معلومات محددة عن المدى الذي وصل إليه جوبي في التدريب.

في أوائل سبتمبر، أطلق مصطفى سليمان، المؤسس المشارك لشركة DeepMind والرئيس التنفيذي الحالي لشركة Inflection AI، قنبلة في مقابلة - وفقًا لتكهناته، كانت OpenAI تدرب GPT-5 سرًا.

يعتقد سليمان أن سام ألتمان ربما لم يكن يقول الحقيقة عندما قال مؤخرًا إنهم لم يقوموا بتدريب GPT-5. (الكلمات الأصلية هي: هيا. لا أعرف. أعتقد أنه من الأفضل أن نكون جميعًا صريحين بشأن هذا الأمر.)

هنا، وفقًا للأشخاص الذين جربوا برج الجوزاء، سوف ينتج برج الجوزاء هلوسة أقل من النماذج الموجودة. الأسباب مفصلة أدناه.

باختصار، يمكن القول إن الحرب النموذجية متعددة الوسائط بين Google وOpenAI هي نسخة الذكاء الاصطناعي من المواجهة بين iPhone وAndroid.

أحدهما عملاق وادي السيليكون الذي سيطر على مجال الذكاء الاصطناعي لسنوات عديدة، والآخر هو شركة ناشئة من الدرجة الأولى في مجال الذكاء الاصطناعي لا مثيل لها في الأضواء. ما مدى اتساع الفجوة بين الاثنين، الجميع يدركون ذلك ينتظر بفارغ الصبر.

### جوجل يختبر برج الجوزاء سرًا

ومن ناحية أخرى، بدأت جوجل أيضًا في دعوة بعض المطورين الخارجيين لتسريع اختبار الجيل القادم من النموذج الكبير متعدد الوسائط Gemini.

في الأسبوع الماضي، ذكرت The Information حصريًا أن Gemini قد يكون جاهزًا قريبًا لإطلاق النسخة التجريبية ودمجه في خدمات مثل Google Cloud Vertex AI.

في مؤتمر مطوري Google I/O لهذا العام، قدم Pichai علنًا Gemini، وهو نموذج متعدد الوسائط وأداة تكامل فعالة وواجهة برمجة التطبيقات (API).

ومن أجل العمل معًا لتحقيق أشياء كبيرة، قامت Google أيضًا بدمج Google Brain مع DeepMind Labs.

ويقال إن ما لا يقل عن 20 مديرًا تنفيذيًا شاركوا في البحث والتطوير الخاص بـGemini، وعلى رأسهم ديميس هاسابيس، مؤسس DeepMind، وشارك سيرجي برين، مؤسس Google، في البحث والتطوير.

هناك أيضًا المئات من الموظفين في Google DeepMind، بما في ذلك مدير Google Brain السابق جيف دين وآخرين.

قال أحد الأشخاص الذين اختبروه إن نموذج Gemini يتمتع بميزة على GPT-4 بطريقة واحدة على الأقل: بالإضافة إلى المعلومات المتاحة للجمهور على الويب، يستفيد النموذج أيضًا من كمية كبيرة من بيانات الملكية من منتجات Google الاستهلاكية (البحث، YouTube). .

لذلك، يجب أن يكون Gemini دقيقًا بشكل خاص في فهم نية المستخدم لاستعلام معين، ويبدو أنه ينتج عددًا أقل من الإجابات غير الصحيحة، أي الهلوسة.

وفقًا لتقارير سابقة من محللي SemiAnalogy، بدأ نموذج Gemini الكبير من الجيل التالي من Google التدريب على جهاز TPUv5 Pod الجديد، مع قوة حوسبة تصل إلى ~1e26 FLOPS، وهو ما يزيد بخمس مرات عن قوة الحوسبة لتدريب GPT-4.

بالإضافة إلى ذلك، تحتوي قاعدة بيانات Gemini التدريبية على 93.6 مليار دقيقة من ترجمات الفيديو على Youtube، ويبلغ إجمالي حجم مجموعة البيانات ضعف حجم GPT-4 تقريبًا.

ويقال إن النموذج الكبير من الجيل التالي من Google يتكون أيضًا من مقاييس متعددة وقد يستخدم بنية وزارة التعليم وتقنية أخذ العينات التأملية.

يتم إنشاء الرمز المميز مسبقًا بواسطة النموذج الصغير وتمريره إلى النموذج الكبير للتقييم لتحسين سرعة التفكير الإجمالية للنموذج.

وقال هاسابيس، رئيس Google DeepMind، في مقابلة، إنه من المتوقع أن تبلغ تكلفة مشروع Gemini عشرات إلى مئات الملايين من الدولارات، وهو ما يعادل تكلفة تطوير GPT-4.

ستقوم Gemini بدمج التكنولوجيا المستخدمة في AlphaGo، والتي ستمنح النظام إمكانات جديدة للتخطيط وحل المشكلات.

يمكن القول أن Gemini يجمع بعض مزايا نظام AlphaGo مع القدرات اللغوية المذهلة لنماذج اللغات الكبيرة. ولدينا بعض الابتكارات الأخرى المثيرة للاهتمام.

التكنولوجيا وراء AlphaGo هي التعلم المعزز، وهي تقنية رائدة من قبل DeepMind.

يتفاعل وكلاء RL مع البيئة بمرور الوقت، ويتعلمون السياسات من خلال التجربة والخطأ، وبالتالي تحقيق أقصى قدر من المكافآت التراكمية على المدى الطويل

ومن خلال التعلم المعزز، يمكن للذكاء الاصطناعي تعديل أدائه من خلال التجربة والخطأ وتلقي ردود الفعل، وبالتالي تعلم كيفية التعامل مع المشكلات الصعبة، مثل اختيار كيفية اتخاذ الخطوة التالية في لعبة Go أو ألعاب الفيديو.

بالإضافة إلى ذلك، يستخدم AlphaGo أيضًا طريقة Monte Carlo Tree Search (MCTS) لاستكشاف وتذكر جميع التحركات الممكنة على اللوحة.

بالمقارنة مع النماذج الحالية، سيعمل Gemini على تحسين قدرات إنشاء الأكواد البرمجية لمطوري البرامج بشكل كبير، وتأمل Google في استخدامه للحاق بمساعد التعليمات البرمجية GitHub Copilot من Microsoft.

ناقشت Google أيضًا استخدام Gemini لتنفيذ وظائف مثل تحليل المخططات، مثل مطالبة النموذج بتفسير معنى المخططات المكتملة، واستخدام الأوامر النصية أو الصوتية لتصفح متصفحات الويب أو البرامج الأخرى.

سيتم أيضًا دعم Google Cloud Vertex AI، منصة مطوري Google Cloud، بواسطة Gemini، مع توفر الإصدارات الكبيرة والصغيرة، بحيث يمكن للمطورين الدفع لشراء نماذج صغيرة لتشغيلها على الأجهزة الشخصية.

الآن، تستعد Google بشكل كامل للحرب، في انتظار أن يبدأ الجوزاء هجومه المضاد.

تم إصدار gpt-3.5-turbo-instruct

في يوليو، أعلنت OpenAI أن واجهة برمجة تطبيقات GPT-4 متاحة بالكامل وستطلق نماذج جديدة في الأشهر القليلة المقبلة.

لا، اليوم فقط، تلقى مستخدمو الإنترنت رسائل بريد إلكتروني تُطلق النموذج الجديد لـ gpt-3.5-turbo-instruct ليحل محل النموذج القديم text-davinci-003.

وفقًا للتقارير، فإن gpt-3.5-turbo-instruct هو نموذج لأسلوب InstructGPT، وطريقة تدريبه مشابهة لـ text-davinci-003.

طريقة الاستخدام مشابهة للطريقة السابقة - الإكمال، ويتم الإكمال وفقًا لتعليمات كلمة المطالبة.

من حيث السعر، يظل gpt-3.5-turbo 4K ثابتًا.

بدأ بعض مستخدمي الإنترنت في استخدام أحدث طراز للعب الشطرنج بحوالي 1800 إيلو.

لقد وجد سابقًا أن GPT لا يمكنها القيام بذلك على الإطلاق، ولكن يبدو الآن أن هذه مشكلة فقط في نموذج الدردشة RLHF، وأن نموذج الإكمال الخالص ناجح.

في اللعبة، هزم gpt-3.5-turbo-instruct بسهولة Stockfish المستوى 4 (1700 نقطة) وما زال لم يتأخر في المستوى 5 (2000 نقطة).

إنها لا تقوم أبدًا بأي حركة غير قانونية، وتستخدم تضحيات افتتاحية ذكية، وبيدقًا لا يصدق وملك كش ملك، مما يسمح لخصومها بالتقدم دون أي معنى حقيقي.

يستخدم مستخدمو الإنترنت مطالبات نمط PGN التالية لمحاكاة اللعبة الرئيسية. تسليط الضوء هو خاطئ بعض الشيء. يقوم GPT بتحركاته الخاصة، ويقوم بإدخال تحركات Stockfish يدويًا.

بالمناسبة، بدأ التسجيل في مؤتمر OpenAI الأول للمطورين المقرر عقده في نوفمبر، لذا سارع بالتقديم.

مراجع:

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

تسجيلات الإعجاب 1

أعجبني
1
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
WCTCTradingKingPK
414.23K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
36.79K درجة الشعبية
#
#FedHoldsRateButDividesDeepen
18.37K درجة الشعبية
#
#DailyPolymarketHotspot
755.22K درجة الشعبية
#
TapAndPayWithGateCard
31.85K درجة الشعبية

تثبيت

خريطة الموقع

هل سيأتي GPT-5؟ تم الكشف عن أن OpenAI قامت بتسريع تدريب النموذج الضخم متعدد الوسائط Gobi، مما أدى إلى القضاء على Google Gimini بضربة واحدة!

من خلال التنافس مع Google، تسارع شركة OpenAI إلى إطلاق نماذج كبيرة متعددة الوسائط

**هل يمكن أن يصبح جوبي GPT-5؟ **

تم إصدار gpt-3.5-turbo-instruct

المواضيع الرائجة

WCTCTradingKingPK

IsraelStrikesIranBTCPlunges

#FedHoldsRateButDividesDeepen

#DailyPolymarketHotspot

TapAndPayWithGateCard

تثبيت

هل يمكن أن يصبح جوبي GPT-5؟