مجموعة الذكاء الاصطناعي "ثلاثة عناصر" التي طورتها شركة مايكروسوفت تتجسد على أرض الواقع، وتعد ببناء نماذج متقدمة كبيرة بشكل مستقل بحلول عام 2027

CryptocurrencySniper · 2026-04-03T18:42:47+00:00

أطلقت شركة مايكروسوفت ثلاثة نماذج ذكاء اصطناعي مطورة ذاتيًا وهي MAI-Transcribe-1 و MAI-Voice-1 و MAI-Image-2، مما يعكس جهودها في التخلص من الاعتماد على OpenAI، وتشمل هذه النماذج تحويل الصوت إلى نص، والتوليد، وإنشاء الصور. وتهدف الشركة إلى تطوير نماذج متقدمة بحلول عام 2027، وتعزيز نشر القدرة الحاسوبية لدعم التطورات المستقبلية.

CryptocurrencySniper

2026-04-03 18:42:47

إنشاء الملخص قيد التقدم

أعلنت شركة مايكروسوفت الأمريكية عن ظهر يوم الخميس أن 3 نماذج للذكاء الاصطناعي تم تطويرها داخليًا قد تم إطلاقها رسميًا للاستخدام التجاري على نطاق واسع، في عرض لمحاولتها التحرر من الاعتماد على الشريك طويل الأمد OpenAI.

وبشكل محدد، فإن ثلاث نماذج: MAI-Transcribe-1 وMAI-Voice-1 وMAI-Image-2 التي طوّرها فريق مايكروسوفت الفائق للذكاء الاصطناعي، تغطي 3 قدرات هي الأكثر قيمة تجاريًا في مجال الذكاء الاصطناعي لدى الشركات—تحويل الصوت إلى نص، وتوليد الصوت، وإنشاء الصور**.

（أعلن الرئيس التنفيذي لمايكروسوفت نادلا هذا التحديث، المصدر: X）

وتقول مايكروسوفت إن MAI-Transcribe-1 هو نموذج الترجمة النصية الأكثر دقة بين نماذج النسخ/التفريغ الصوتي الأكثر استخدامًا في السوق. وفي الاختبارات التي شملت جميع اللغات، بلغ متوسط معدل الخطأ 3.9%. بينما يبلغ معدل خطأ GPT-Transcribe لدى OpenAI 4.2%، وGemini 3.1 Flash 4.9%.

يُزعم أن نموذج توليد الصوت MAI-Voice-1 يمكنه توليد 60 ثانية من الصوت في أقل من ثانية واحدة على “معالج رسومي واحد”، كما يمكنه الحفاظ على اتساق الصوت أثناء توليد المحتوى الطويل.

تم طرح MAI-Image-2 لأول مرة في 19 مارس، وفي يوم الخميس أيضًا تم إطلاقه إلى الاستخدام التجاري على نطاق واسع إلى جانب النموذجين الآخرين. وفي الوقت الحالي، يحتل هذا النموذج المركز الثالث في ترتيب “المنافسة بين النماذج الكبيرة” ضمن توليد الصور من النص، خلف Nano Banana 2 المنتج الشائع من جوجل وGPT-Image 1.5 من OpenAI.

ومن حيث المقارنة الأفقية في الأسعار، تبدأ تكلفة إدخال النص في MAI-Image-2 من 5 دولارات لكل مليون رمز (tokens)، بينما تبدأ تكلفة إخراج الصور من 33 دولارًا لكل مليون رمز. أما نموذج توليد الصور لدى Gemini 3 Pro من جوجل فيكلف 120 دولارًا لكل مليون رمز، وGemini 3.1 Flash للصور 60 دولارًا لكل مليون رمز.

الهدف: تطوير نماذج كبيرة رائدة عالميًا بشكل مستقل

تستند أحدث خطوة لمايكروسوفت إلى أكتوبر من العام الماضي، عندما أعادت الشركة تنظيم شراكتها مع OpenAI، ما يسمح لمايكروسوفت بالمضي منفردة أو بالتعاون مع شركاء من أطراف ثالثة في السعي للحصول على حقوق الذكاء الاصطناعي العام. ورغم أن الاتفاق السابق كان يسمح لمايكروسوفت باستخدام حقوق الملكية الفكرية لدى OpenAI، فإنه كان في الوقت نفسه يحظر عليها تطوير أنظمة ذكاء اصطناعي منافسة.

صرّح الرئيس التنفيذي للذكاء الاصطناعي في مايكروسوفت، مصطفى سليمان، علنًا بأن هدف الفريق بحلول عام 2027 هو “أن يتمكن من تحقيق مستوى متقدم فعلًا على مستوى أحدث ما هو متاح”، بما في ذلك نماذج قادرة على الاستجابة للنص أو توليده، وكذلك الصور والصوت.

وأوضح سليمان أن الشركة تبني القدرة الحاسوبية اللازمة لتدريب النماذج، وأنها بدأت منذ أكتوبر من العام الماضي في نشر رقائق NVIDIA GB200.

وقال: “منذ ذلك الحين، سنقوم على نحو تدريجي خلال الأشهر التسعة إلى 12 إلى 18 شهرًا القادمة تقريبًا برفع قدرات الحوسبة إلى مستوى يحقق الحجم المتقدم في هذا المجال.”

وبصفته أحد المؤسسين المشاركين لـ DeepMind التابعة لجوجل، انضم سليمان إلى مايكروسوفت في عام 2024، وهو مسؤول عن دمج الذكاء الاصطناعي في منتجاتها الاستهلاكية. وبعد توقيع مايكروسوفت اتفاقًا مع OpenAI في أكتوبر من العام الماضي، تولى سليمان قيادة فريق مايكروسوفت الفائق للذكاء الاصطناعي بدوام كامل في نوفمبر من العام الماضي. وفي إعادة الهيكلة الداخلية التي جرت في الشهر الماضي، تم تقليص مهام سليمان إلى تطوير النماذج، بينما تولى مسؤول تنفيذي سابق من شركة Snap يُدعى يعقوب أندريو إدارة منتجات مساعد Copilot لمايكروسوفت الموجهة للمستخدمين من الشركات والأفراد.

وقال سليمان لوسائل الإعلام: “نريد التأكيد على أن إبقاء دفع قدراتنا المتقدمة من الذكاء الاصطناعي خلال السنوات الثلاث إلى الخمس المقبلة، وتحقيق هذه المهمة الاستراتيجية المتمثلة في الاستقلال الطويل الأمد، أمر بالغ الأهمية.” وأضاف في الوقت نفسه أن الشركة ستواصل أيضًا استضافة نماذج تم تطويرها من قبل شركات أخرى.

ومن منظور طويل الأجل، فإن الوصول العميق لمايكروسوفت إلى حقوق الملكية الفكرية لدى OpenAI سينتهي في الفترة بين عامي 2032، لذا فإن تطوير نماذج كبيرة تم تطويرها ذاتيًا يُعد أيضًا تحوطًا مهمًا من المخاطر.

وتوجد أيضًا العديد من أوجه القصور لدى أعمال نماذج مايكروسوفت المطورة ذاتيًا التي بدأت للتو، بما يكفي لتبيّن أن فريق سليمان سيحتاج إلى إنجاز الكثير من العمل خلال العام المقبل.

فعلى سبيل المثال، لا يدعم MAI-Image-2 حاليًا سوى نسبة 1:1 ولا يوفر خيارات أفقية أو عمودية، ولا تتوفر ميزات شائعة في تطبيقات الذكاء الاصطناعي الأخرى مثل تحرير الصور من صورة إلى صورة، أو دعم الصور المرجعية. ولا يستطيع MAI-Transcribe-1 التمييز بين المتحدثين المختلفين داخل الحوار، ولا يدعم تحيز السياق والبث المتدفق، وتقول مايكروسوفت إن هذه الميزات الثلاث قيد التطوير.

（المصدر: Caixin Global / شبكة cfi-lian）

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.