العقود الآجلة
وصول إلى مئات العقود الدائمة
CFD
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
Pre-IPOs
افتح الوصول الكامل إلى الاكتتابات العامة للأسهم العالمية
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
عروض ترويجية
AI
Gate AI
شريكك الذكي الشامل في الذكاء الاصطناعي
Gate AI Bot
استخدم Gate AI مباشرة في تطبيقك الاجتماعي
GateClaw
Gate الأزرق، جاهز للاستخدام
Gate for AI Agent
البنية التحتية للذكاء الاصطناعي، Gate MCP، Skills و CLI
Gate Skills Hub
أكثر من 10 آلاف مهارة
من المكتب إلى التداول، مكتبة المهارات الشاملة تجعل الذكاء الاصطناعي أكثر فعالية
GateRouter
ختر بذكاء من أكثر من 40 نموذج ذكاء اصطناعي، بدون أي رسوم إضافية 0%
من العصر الحجري إلى عصر النهضة: الاختراقات التقنية والتفكير المنتج وراء OpenAI توليد الصور 2.0
كتابة المقال: تنظيم Techub News
هذه هي محتويات الحلقة 19 من بودكاست OpenAI الرسمي. استضافها أندرو ماي، وشارك فيها الباحث كينجي هاتا، ومسؤولة المنتجات أديل لي، حيث أجروا حوارًا عميقًا حول GPT Image 2.0 (أي ImageGen 2.0). حدث هذا الحوار بعد حوالي أسبوعين من إطلاق النموذج رسميًا — حينها تجاوز عدد الصور المولدة أسبوعيًا 1.5 مليار، وانتشرت العديد من الاتجاهات الاستخدامية بسرعة على مستوى العالم. هذه ليست مجرد مراجعة لإطلاق المنتج، بل مناقشة صريحة حول تحول نمط تقنية توليد الصور.
من المستثمر إلى مسؤول منتج: قصة حول التحول في الأدوار
قبل انضمامها إلى OpenAI، كانت أديل لي تعمل في مجال الاستثمار طوال مسيرتها المهنية. عملت في مؤسسات خاصة ورأس مال مخاطر Redpoint Ventures، مع تركيز على الاستثمارات المبكرة في مجالي الذكاء الاصطناعي والبرمجيات. عند انضمامها إلى OpenAI، كانت مسؤولة في البداية عن تخطيط بنية البيانات والحوسبة، وهو مجال بعيد عن توليد الصور. لكن خلال الأشهر الستة الماضية، بدأت تتجه تدريجيًا نحو الجانب المنتج، وتولت مسؤولية كاملة عن منتجات ImageGen.
قالت بصراحة، إن جوهر دور مدير المنتج هو “القيام بما يجب القيام به”، بغض النظر عن نوع المهمة. وخصوصًا في مشروع ImageGen، الذي مكنها من تنشيط قدرات متعددة — التعاون الوثيق مع باحثين مثل كينجي، والتفكير المستمر في الثغرات السوقية، وفرص النمو.
“لم يعد السوق هو نفسه الذي كان عند إصدار ImageGen 1.0 قبل عام.” قالت أديل. اليوم، هناك عدة منافسين في مجال توليد الصور، وChatGPT نفسه أصبح منتجًا مختلفًا تمامًا. في هذا السياق، فإن التفكير في دور ImageGen في نظام ChatGPT البيئي هو أحد الأمور التي تجدها أكثر إثارة للاهتمام.
كما انضم كينجي هاتا إلى OpenAI قبل حوالي عامين. بدأ بمشروع صوتي، ثم بشكل غير متوقع شارك في العمل قبل إصدار ImageGen 1.0، ومن ثم تحول تدريجيًا إلى العمل بدوام كامل في أبحاث توليد الصور، حتى وصل إلى الإصدار 2.0.
البيانات تتحدث: أسبوعان بعد الإطلاق، 1.5 مليار صورة أسبوعيًا
خلال الأسبوعين الأولين بعد إطلاق GPT Image 2.0، زاد استخدام توليد الصور على ChatGPT بنسبة تزيد عن 50%، وتجاوز عدد الصور المولدة أسبوعيًا 1.5 مليار. في الوقت نفسه، انتشرت الاتجاهات الاستخدامية بسرعة على مستوى العالم — من تحليل الألوان والملصقات التي يفضلها المستخدمون في آسيا، إلى الرسومات بالألوان الشمعية، والأسلوب التخطيطي الذي يفضله المستخدمون في أمريكا، وغيرها.
رأت أديل أن هذا الانتشار الفيروسي يوضح مشكلة واحدة: أن المستخدمين أدركوا بسرعة كبيرة قدرة النموذج على التقدم — “ردود الفعل البصرية المباشرة هي الأكثر وضوحًا.” وقالت إن المستخدمين لا يحتاجون لقراءة تقارير تقنية، فقط يفتحون النموذج ويولّدون صورة، ويعرفون على الفور إذا كانت جيدة أم لا.
وأعرب المضيف أندرو عن نفس الشعور — فمدى التحسن الكبير في القدرات جعله يعتقد أن المصطلح “2.0” لا يعبر بدقة عن الأمر، بل هو بمثابة نمط جديد تمامًا. فكيف حدث هذا التحول في النمط؟
ثلاثة اختراقات رئيسية: النص، اللغات المتعددة، والواقعية
عزا أديل وكينجي ارتفاع قدرات ImageGen 2.0 إلى عدة تطورات رئيسية حدثت بشكل متزامن.
الأول هو قدرة النموذج على معالجة النصوص. كانت نماذج توليد الصور المبكرة تعاني بشكل كبير عند التعامل مع النصوص داخل الصور — تشوه الحروف، اختلاط الكلمات، وفوضى في الترتيب. قال أندرو مازحًا إن كلمة “OpenAI” التي كانت تظهر في صور DALL-E القديمة كانت تبدو وكأنها كتبها قرد. أما الآن، فالنموذج قادر على عرض نصوص طويلة وواضحة، وحتى جداول معلومات معقدة بدقة.
استخدم كينجي اختبارًا داخليًا لقياس هذا التقدم: طلب من النموذج توليد صورة تحتوي على شبكة من 100 جسم عشوائي، ثم حساب نسبة الدقة. كانت النسب من 5 إلى 8 عناصر في DALL-E 3، ثم حوالي 16 في ImageGen 1.0، واستقرت بين 25 و36 في الإصدار 1.5، والآن في 2.0 يمكن أن يقترب من 100 عنصر صحيح بالكامل. قال كينجي: “هذا ليس قفزة مفاجئة، بل نمو مستمر ومستقر.”
الثاني هو دعم اللغات المتعددة. قام الفريق خلال التدريب بتعزيز فهم النموذج للغات مختلفة وإنتاجها. بعد الإطلاق، أكد رد فعل المستخدمين في آسيا وأوروبا صحة هذا الاتجاه — حيث يمكن لمستخدمين من بيئات لغوية مختلفة الحصول على صور عالية الجودة ومترجمة بشكل جيد.
الثالث هو الواقعية في التصوير الفوتوغرافي. كانت من أكثر نقاط الضعف التي اشتكى منها المستخدمون سابقًا: كانت الصور التي تنتجها النماذج القديمة غالبًا ذات مظهر “مبالغ فيه كأنه غلاف مجلة”، مع تشوهات في ملامح الوجه والجسد، وافتقار إلى الواقعية. عملت نسخة 2.0 على تحسين هذا الجانب بشكل كبير، بهدف جعل الصور “تبدو وكأنها أنت”. تذكر كينجي عندما رأى أول نتائج من النموذج الجديد: وضعها بجانب نتائج ImageGen 1.0، ولم يتردد في القول: “لا حاجة للمناقشة، الفائز واضح.”
وصف صورة لامرأة تقف على الشاطئ تتطلع إلى الأفق، وقال: “ننظر إلى صورتين، ولم نقل شيئًا. فقط… حسناً، هذه أفضل.”
كيف نحقق التوازن بين السرعة والجودة؟ مرحلة ما بعد التدريب كمفتاح
طرح أندرو سؤالًا يثير فضول الكثيرين: كيف أصبح النموذج أكثر ذكاءً، ومع ذلك لم يتباطأ في سرعة التوليد؟
شرح كينجي أن كل إصدار تراكمت فيه خبرات هندسية كثيرة. على سبيل المثال، عمل الفريق على تحسين “كفاءة الرموز” — أي استخدام رموز أقل لإنتاج صور ذات جودة أعلى. هذا هو عملية تحسين مستمرة في كل إصدار، وليس نتيجة اختراق تقني واحد.
أديل أضافت أهمية مرحلة ما بعد التدريب. قالت إن تدريب النموذج يتطلب جعله يفهم المعرفة العالمية — كيف تظهر المفاهيم العلمية، والرياضيات، والأفكار في الصور — وأيضًا الإجابة على سؤال أكثر ذاتية: ما هو “الجمال”؟ وما هو “الذوق الرفيع”؟
هذه الأسئلة لا توجد لها إجابات موحدة، لكنها تحدد بشكل مباشر الحد الأقصى لجودة مخرجات النموذج. لذلك، تعاون الفريق مع فنانين ومصممين ومسوقين، وحاول أن يدمج حكمهم الجمالي وأفضل الممارسات في تفاعل النموذج مع المستخدم.
كما يراقب الفريق ردود فعل المستخدمين على وسائل التواصل الاجتماعي، ويُدرج المشكلات الواقعية في عملية التطوير. قال كينجي: “هذه الملاحظات إما تُخفف أو تُصلح في الإصدار التالي.”
الاتجاهات الفيروسية وراءها: التعبير عن “الذات غير الكاملة” باستخدام الذكاء الاصطناعي
من بين الاتجاهات التي ظهرت بعد الإطلاق، كان هناك شيء فاجأ الفريق وأثار اهتمامه: أن المستخدمين يستخدمون النموذج القوي جدًا لإنتاج صور “خشنة، غير متقنة” بأسلوب “رسم مايكروسوفت” — كأن يختزلوا صور المشاهير أو الصور الشائعة إلى رسومات بيكسل.
قالت أديل بنظرة ثاقبة: “لجعل الذكاء الاصطناعي يولد شيئًا ‘غير كامل’، يتطلب ذلك ذكاءً عاليًا.” وهذا ليس فشلًا في النموذج، بل هو عكس ذلك — هو تعبير حقيقي عن فهم النموذج لنوايا المستخدم.
ترى أن هذا يعكس اتجاه نفسي استهلاكي: الناس يتوقون إلى الواقعية، والعيوب، والحنين. أساليب مثل الألوان الشمعية، والرسومات التخطيطية، والبيكسلات القديمة — كلها تشير إلى رغبة المستخدمين في إظهار أنفسهم بشكل أكثر صدقًا ومتعة، وليس فقط السعي وراء “إنتاج مثالي”.
قالت أديل: “التعبير عن الذات باستخدام الذكاء الاصطناعي هو الاتجاه الذي يحمسنا حقًا.” وهذا يتوافق مع مهمة OpenAI — تمكين المزيد من الناس من التعبير عن “ذات لم تكن ممكنة من قبل.”
من الترفيه إلى الإنتاجية: التعليم، التصميم، والتغلغل عبر الصناعات
تحول آخر مهم في ImageGen 2.0 هو انتقاله من الاستخدامات الترفيهية إلى أدوات إنتاجية حقيقية.
في مجال التعليم، يوجد قناة تجريبية مخصصة للمعلمين، تغطي من المرحلة الابتدائية حتى الدراسات العليا. شارك كينجي حالة أثارت إعجابه: أستاذ في علم الأحياء أدخل محتوى من كتب دراسية متقدمة، ونتج عن ذلك صفحات توضيحية عالية الدقة، وأكد أن المحتوى كان صحيحًا تمامًا.
رأت أديل أن تحويل المفاهيم المعقدة إلى محتوى بصري سهل الفهم هو أحد أقوى قدرات النموذج. وأشارت بشكل خاص إلى “التعلم الشخصي” — حيث يمكن للمعلمين استخدام ImageGen لإنشاء مواد تعليمية مخصصة لطلاب من خلفيات لغوية واهتمامات مختلفة. وهو مجال تتطلع إليه الفريق بشكل نشط: كيف يمكن دمج ImageGen بشكل أعمق في سيناريوهات التعلم مع ChatGPT، بحيث يكون الشرح البصري جزءًا طبيعيًا من عملية التعليم.
وفي سياق العمل، كشفت أديل عن بيانات داخلية مثيرة: أن أكثر من 50% من عروض تقديمية داخلية في OpenAI تستخدم صورًا مولدة بواسطة ImageGen. وقالت: “انتشار التواصل عبر الصور أسرع بكثير مما توقعنا.”
كما ذكرت أن هناك العديد من المهن التي تستخدم ImageGen بالفعل: وكلاء العقارات يستخدمونه لإنشاء صور العقارات والتصاميم الافتراضية، منشئو محتوى YouTube يصنعون به غلاف الفيديو ومواد الترويج، الفنانون يستخدمونه للتواصل مع المعجبين، والكتاب يولدون به صورًا لمشاركات وسائل التواصل الاجتماعي بسرعة…
شارك أندرو أيضًا تجربته الشخصية: أرسل غلاف كتابه إلى النموذج، وطلب منه إنشاء صور ترويجية بأحجام مختلفة لمنصات التواصل، وكانت النتيجة أن النموذج أنتج النسب والأسلوب الصحيحين من المرة الأولى. قال: “هذا يشبه السحر.”
الصور البانورامية 360 درجة، والرسوم المتحركة، وتكامل Codex: قدرات تظهر بشكل مفاجئ
بالإضافة إلى التحسينات المتوقعة، جلب الإصدار 2.0 قدرات “ظهور” لم تكن متوقعة تمامًا من قبل الفريق.
من بين هذه القدرات، الصور البانورامية 360 درجة. اكتشف الفريق أن النموذج، عند دعم توليد بأبعاد غير قياسية، بدأ بشكل تلقائي في توليد صور بانورامية عريضة جدًا، وحتى صور بزاوية 360 درجة. وطوروا وظيفة في المنتج تتيح للمستخدمين الآن توليد وتصفح هذه الصور بشكل غامر عبر الويب والتطبيقات.
أول تجربة لأندرو كانت صورة “كلب يلعب الورق” بزاوية 360 درجة، من منظور الكلب، ينظر حوله.
أما الرسوم المتحركة (Sprite Sheet)، فهي أيضًا أصبحت من الاستخدامات الشائعة بشكل غير متوقع. مطورو الألعاب والمبدعون المستقلون يستخدمون ImageGen لإنشاء شخصيات متعددة الأوضاع، ومع قدرات Codex في توليد الكود، يمكنهم بناء لعبة صغيرة مع شخصيات مخصصة من الصفر. وصف أندرو كيف رأى عملية ذلك: يقول “أريد طائرًا غرابًا”، ثم يراقب كيف يستدعي النظام أدوات ImageGen، ويولد صور الطائر، ويقوم Codex بدمجها في كود اللعبة. “هذا سحر.”
كما أن تماسك الصور عبر عدة صور هو تقدم ملحوظ في 2.0. ذكر كينجي أن بعض المستخدمين بدأوا في إنشاء مانغا مكونة من 10 صفحات، مع الحفاظ على تطابق عالي في شخصياتها وأسلوبها البصري عبر الصور. كانت هذه المهمة تتطلب سابقًا الكثير من التدخل اليدوي، والآن أصبحت أكثر موثوقية وسلاسة.
الخطوة القادمة: وكيل إبداعي ومساعد بصري شخصي
عند الحديث عن المستقبل، قدمت أديل رؤية واضحة: وكيل إبداعي (Creative Agent).
تصورت أن يكون هذا الوكيل قادرًا على فهم أسلوب عملك، وتفضيلاتك الجمالية، وأهدافك، ليعمل كمساعد شخصي في التصميم الداخلي، والهندسة المعمارية، وتنظيم حفلات الزفاف — وكل ذلك يتجسد في صورة واحدة.
الهدف هو أن يُدمج “الشخصنة” بشكل حقيقي في كل مرحلة من مراحل توليد الصور. وأخذت مثالها الخاص بـ"me-me-me eval": تستخدم 100 صورة لنفسها، وأصدقائها، وعائلتها، لاختبار ما إذا كان النموذج يستطيع إدراج عناصر شخصية مناسبة في السياق الصحيح — مثل أن يتذكر أن لديها أخًا، أو أن والديها يحبون شيئًا معينًا، وأن يدمج هذه المعلومات بشكل طبيعي عند توليد بطاقات تهنئة.
أما كينجي، من ناحية البحث، فيقول إن الفريق لا يزال يعمل على تحسين تماسك الصور، وتجربة الإبداع البصري بشكل عام، وجعل المستخدمين يحصلون على المخرجات التي يريدون بسرعة وسهولة. “اليوم ليست مثالية، لكننا نعرف الاتجاه الصحيح.”
وفيما يخص تقنيات التلميح (Prompting)، قدم كل منهما نصائح. أديل توصي بتجربة “نمط تفكير ImageGen” — حيث يمكن في وضع Pro أو وضع التفكير أن يتصل النموذج بالإنترنت، ويبحث، ويحلل ملفات، ويستخدم أدوات، مما يرفع جودة وتناسق الصور. وتقترح استخدام تلميحات مفتوحة تسمح للنموذج بالاستكشاف والاستنتاج، مع إعطائه أسلوبًا جماليًا واضحًا كنقطة مرجعية. أما كينجي، فهو يفضل الأسلوب البسيط، ويحب الرسوم البيانية ذات التصميم البسيط، لذلك يوجه النموذج بعبارات مثل “حافظ على نظافة وبساطة”.
إذا كانت DALL-E تمثل عصر الحجارة في توليد الصور، فإن ImageGen 2.0 هو نهضتها — ليس فقط تقدمًا فنيًا، بل اندماجًا شاملًا بين العلم، والفن، والعمارة، والمعرفة، والجمال. وفي ختام هذا الحوار، اختتمت أديل بكلمة، وهي ربما أفضل طريقة لفهم هذا النموذج: لم يعد مجرد “أداة للرسم”، بل كائن ذكي بصري بدأ يفهم العالم، ويفهم الإنسان، ويفهم الجمال.