تيثر توسع بيانات تدريب الذكاء الاصطناعي المفتوحة بإصدار مجموعة بيانات QVAC Genesis II


اكتشف أبرز أخبار وفعاليات التكنولوجيا المالية!

اشترك في النشرة الإخبارية لـ FinTech Weekly

يقرأها المسؤولون التنفيذيون في JP Morgan وCoinbase وBlackrock وKlarna وأكثر


توسع كبير في بيانات التدريب لـ Open AI

أصدرت Tether Data نسخة جديدة من مجموعة بياناتها التعليمية الاصطناعية للذكاء الاصطناعي، بما يؤدي إلى زيادة كبيرة في حجم ونطاق مواد التدريب المفتوحة المتاحة للباحثين حول العالم. أعلنت شعبة أبحاث الذكاء الاصطناعي في الشركة، QVAC، أن الإصدار الجديد، الذي أُطلق عليه QVAC Genesis II، يضيف 107 مليارات من الرموز إلى مجموعتها السابقة، ليصل الحجم الإجمالي إلى 148 مليار رمز.

تعد المجموعة الموسعة الآن أكبر مورد تعليمي اصطناعي متاح علنًا، ومصمم خصيصًا لتدريب ما قبل الذكاء الاصطناعي. وهي تمتد عبر 19 مجالًا أكاديميًا، وتهدف إلى تحسين كيفية تعلم النماذج للاستدلال والتفسير واتخاذ القرار، بدلًا من الاكتفاء بالتعرف على الأنماط على مستوى سطحي.

يضع الإعلان الإصدار باعتباره خطوة نحو تطوير ذكاء اصطناعي أكثر شفافية وإتاحة، في وقت لا تزال فيه العديد من مجموعات بيانات التدريب المتقدمة محجوزة داخل أنظمة مملوكة.

البناء على الإصدار الأول Genesis

تستند QVAC Genesis II إلى العمل الذي طُرح أولًا مع Genesis I، والذي كان يركز على إنشاء مجموعة بيانات اصطناعية تعليمية مُتحقَّق منها، تغطي المواد الأساسية في العلوم والتكنولوجيا والهندسة والرياضيات. لقد أرست مجموعة الإصدار السابقة إطارًا لتوليد أسئلة تدريبية منظمة، بهدف تحسين دقة الاستدلال.

يوسع الإصدار الجديد التغطية إلى عشرة مجالات إضافية، بما في ذلك الكيمياء وعلوم الحاسوب والإحصاء والتعلم الآلي وعلم الفلك والجغرافيا والاقتصاديات القياسية للهياكل (econometrics) والهندسة الكهربائية. كما يعيد النظر في محتوى الفيزياء على مستوى الكليات، من خلال إعادة توليده باستخدام منهجية مُحدَّثة مصممة لتحسين وضوح المفاهيم.

معًا، يشكل الإصداران ما تصفه QVAC بأنه أوسع مجموعة بيانات تعليمية اصطناعية تم إتاحتها للجمهور حتى الآن. صُممت المجموعة لاستخدامها في تدريب ما قبل النماذج اللغوية الكبيرة وأنظمة ذكاء اصطناعي أخرى تتطلب مادة أكاديمية منظمة.

تحول في كيفية توليد بيانات التدريب

في قلب Genesis II توجد طريقة جديدة لتوليد البيانات تُشار إليها باسم Option-Level Reasoning. تختلف هذه المقاربة عن العديد من تقنيات البيانات الاصطناعية الموجودة، من خلال التركيز ليس فقط على الإجابات غير الصحيحة، بل أيضًا على الصحيحة.

بدلًا من التعامل مع الاستجابة الصحيحة بوصفها نهاية العملية، تقوم الطريقة بتحليل كل خيار إجابة في سؤال متعدد الخيارات. يتم تفكيك الاختيارات الصحيحة لتعزيز سبب كونها صحيحة، بينما تتم دراسة الخيارات غير الصحيحة لمعالجة المفاهيم الخاطئة الشائعة. يتيح هذا الهيكل للنماذج تعلم الاستدلال السببي ومنطق اتخاذ القرار بدلًا من الاكتفاء بربط الأسئلة بالنتائج.

تتماشى هذه المقاربة مع منهجية Failure Analysis التي تم تقديمها في Genesis I، والتي ركزت على استخراج القيمة من أخطاء النموذج. وبالاقتران، تشكل الطريقتان خط إنتاج يُصمَّم فيه كل سؤال مُولَّد ليُسهم بقيمة تعليمية.

تشير التقييمات المستقلة التي استشهدت بها QVAC إلى أن النماذج المدربة على بيانات Genesis II تُظهر دقة أعلى في الاستدلال وتنتج إجابات أوضح من تلك المدربة على مجموعات بيانات اصطناعية سابقة.

التركيز على الفهم بدلًا من الطلاقة

يعتمد جزء كبير من منظومة تدريب الذكاء الاصطناعي الحالية على تجميع كميات ضخمة جدًا من النص، غالبًا ما يتم جلبه من مصادر عامة، لتحسين الطلاقة اللغوية. يختلف الهدف المعلن لدى QVAC في طريقة التركيز. فمجموعات بيانات Genesis مُهيكلة لتعليم النماذج كيفية الاستدلال عبر المشكلات وكيفية شرح النتائج بطريقة واضحة.

أفاد قادة الشركة أن النية هي تجاوز أنظمة التدريب التي تتوقع تسلسلات نصية محتملة، والانتقال إلى نماذج تُظهر فهمًا للمفاهيم الكامنة. يعطي تصميم المجموعة الأولوية للوضوح والسببية والمنطق، بهدف تقليل الغموض في مخرجات النماذج.

تتوافق هذه المقاربة مع المناقشات الأوسع في أبحاث الذكاء الاصطناعي حول الاعتمادية وقابلية التفسير، خصوصًا عندما تُستخدم أنظمة الذكاء الاصطناعي في التعليم والعلوم وسياقات دعم اتخاذ القرار.

إتاحة الوصول المفتوح للباحثين والمطورين

كما هو الحال مع مجموعة بيانات Genesis الأصلية، يتم إصدار QVAC Genesis II بشكل مفتوح. تتوفر المجموعة بموجب رخصة Creative Commons Attribution–NonCommercial 4.0، ما يتيح للباحثين والمؤسسات الأكاديمية والمطورين المستقلين استخدام البيانات ودراستها خارج الأوضاع التجارية.

تستضيف المجموعة والنماذج المرتبطة بها على Hugging Face، إلى جانب ورقة بحثية تقنية مفصلة تُحدد منهجية التوليد ونتائج التقييم. تهدف هذه التوزيعات المفتوحة إلى خفض الحواجز أمام الباحثين الذين لا يملكون إمكانية الوصول إلى مجموعات بيانات مملوكة كبيرة.

من خلال الحفاظ على ترخيص غير تجاري، تهدف QVAC إلى دعم البحث الأكاديمي والبحث المدفوع من المجتمع، مع الحد من الاستغلال التجاري المباشر.

دعم تطوير ذكاء اصطناعي لامركزي

يتناسب الإصدار أيضًا ضمن استراتيجية أوسع تتبعها Tether Data لتشجيع تطوير ذكاء اصطناعي لامركزي. وقد ذكرت الشركة أن بيانات التدريب عالية الجودة لا ينبغي أن تظل مقصورة على المؤسسات التي لديها إمكانية الوصول إلى البنية التحتية السحابية المركزية.

من خلال إتاحة مجموعات بيانات منظمة كبيرة الحجم للعامة، تسعى QVAC إلى تمكين التدريب المحلي والتجريب ونشر نماذج ذكاء اصطناعي. ومن المقصود من هذه المقاربة دعم بيئات البحث حيث قد تكون موارد الحوسبة محدودة، لكن تظل المساهمات الفكرية كبيرة.

يعكس التركيز على اللامركزية الاهتمام المتزايد بتقليل الاعتماد على عدد صغير من منصات ذكاء اصطناعي مهيمنة، وتعزيز منظومة بحث أكثر توزيعًا.

دور Tether في أبحاث الذكاء الاصطناعي

تعمل QVAC بوصفها شعبة أبحاث الذكاء الاصطناعي التابعة لـ Tether Data. بينما يُعرف Tether على نطاق واسع بدوره في الأصول الرقمية والسبائك المستقرة، فقد وسعت الشركة أنشطتها إلى بيانات وأبحاث ذكاء اصطناعي في السنوات الأخيرة.

من خلال QVAC، ركزت Tether Data على بناء البنية التحتية والموارد التي تدعم البحث المفتوح. وتمثل مجموعات بيانات Genesis أحد أكثر المخرجات وضوحًا لتلك الجهود، ما يضع الشركة ضمن المناقشات حول تطوير ذكاء اصطناعي مفتوح وبيانات تدريب تركز على التعليم.

كما تعكس هذه الأعمال التداخل المتزايد بين شركات التكنولوجيا المالية وأبحاث الذكاء الاصطناعي المتقدمة، إذ تستثمر شركات التكنولوجيا المالية بشكل متزايد في قدرات علوم البيانات والتعلم الآلي.

منظور القيادة تجاه الإصدار

قدّمت قيادة الشركة إصدار Genesis II باعتباره ابتعادًا عن أساليب التدريب التي تعطي الأولوية للحجم وحده. ووفقًا للتصريحات الصادرة عن فريق الإدارة التنفيذي في Tether، فإن التركيز هو تعليم أنظمة الذكاء الاصطناعي كيفية الاستدلال وكيفية شرح ما إذا كانت الإجابات صحيحة، بدلًا من مجرد توليد ردود سريعة الطلاقة.

أكد Paolo Ardoino، الرئيس التنفيذي لـ Tether، أن الذكاء الاصطناعي الموثوق يجب أن يستند إلى فهم سبب صحة الإجابات. وقد أشار إلى أن إتاحة المجموعة بشكل مفتوح تعكس قناعة بأن ذكاء اصطناعي أقوى وأكثر قابلية للتفسير يعود بالنفع على المجتمع ككل.

وتتردد هذه الآراء في صدى مخاوف أثيرت لدى الباحثين بشأن حدود النماذج التي يتم تدريبها أساسًا على نص غير منظم.

النطاق التعليمي والتغطية حسب المجال

تغطي المجموعات المجمعة من Genesis I وII 19 مجالًا، مع محتوى مُصمم لمستويات التعليم الثانوي والجامعي. وتتراوح المواد من الرياضيات والفيزياء الأساسية إلى مجالات تطبيقية مثل الاقتصاد القياسي للهياكل (econometrics) والتعلم الآلي.

يتضمن كل مجال أسئلة منظمة وتفسيرات ومسارات استدلال تهدف إلى محاكاة كيفية تدريس المفاهيم وتقييمها في البيئات التعليمية الرسمية. ويُقصد من هذا التصميم دعم مهام ما قبل التدريب التي تتطلب اتساقًا منطقيًا وعمقًا مفاهيميًا.

من خلال إعادة توليد المحتوى وتوسيعه باستخدام منهجيات محسّنة، تهدف QVAC إلى تحسين كيفية تمثيل المواد التعليمية داخل المجموعات البيانية الاصطناعية.

التقييم وأداء النموذج

وفقًا لتقييمات داخلية ومستقلة يستشهد بها QVAC، تُظهر النماذج المدربة على بيانات Genesis II أداءً محسّنًا في المهام الثقيلة على الاستدلال. وتشمل هذه الإجابة عن أسئلة منظمة، وشرح النتائج، وتجنب الإجابات الغامضة أو المتناقضة.

تشير نتائج التقييم إلى أن دمج Failure Analysis وOption-Level Reasoning يؤدي إلى مخرجات أكثر اتساقًا. وفي حين لم تضع الشركة المجموعة كحل قائم بذاته، فقد قدمتها كأساس قوي لمزيد من التدريب والضبط الدقيق.

من المتوقع أن يجري الباحثون تقييمات إضافية مع اتساع استخدام المجموعة في المجتمع.

آثار على أبحاث Open AI

قد يؤثر إصدار مجموعة بيانات بهذا الحجم وبشكل مفتوح على كيفية تعامل الباحثين الأكاديميين والمستقلين مع تدريب النماذج. لقد كانت إمكانية الوصول إلى بيانات تعليمية منظمة بهذا المستوى من الحجم تقليديًا محدودة أمام المؤسسات الممولة جيدًا.

من خلال توفير بديل، قد تدعم QVAC Genesis II التجريب مع نماذج أصغر، وجهود تدريب محلية، والبحث في أساليب ذكاء اصطناعي قابل للتفسير.

قد تعمل المجموعة أيضًا كمعيار للمشروعات المستقبلية لبيانات اصطناعية تركز على جودة الاستدلال أكثر من مجرد الحجم.

الموقع ضمن منظومة أوسع للذكاء الاصطناعي

تدخل QVAC Genesis II منظومة ذكاء اصطناعي تتسم بتطور سريع وتزايد تركّز الموارد. يتم تدريب العديد من أكثر النماذج قدرة على مجموعات بيانات مملوكة لا يمكن الوصول إليها للتدقيق أو النسخ.

توفر مجموعات البيانات المفتوحة مثل Genesis II نقطة مقابلة، إذ تتيح الشفافية والتقدم المشترك. كما تثير أسئلة حول كيفية التعايش بين الموارد المفتوحة وتطوير الذكاء الاصطناعي التجاري.

وتُبرز مشاركة شركة راسخة في مجال التكنولوجيا المالية والأصول الرقمية كيف أن أبحاث الذكاء الاصطناعي تجذب اهتمامًا من مجموعة واسعة من الصناعات بعيدًا عن شركات التكنولوجيا التقليدية.

التوفر والخطوات التالية

تم نشر التوثيق الفني الكامل للمجموعة، بعنوان “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”، على مدونة أبحاث QVAC. ويتوفر الوصول إلى المجموعة والنماذج المرتبطة عبر Hugging Face.

أشارت QVAC إلى أنها تخطط للاستمرار في تحسين منهجياتها وتوسيع نطاق التغطية التعليمية في الإصدارات المقبلة. ومن المتوقع أن تلعب الملاحظات الواردة من مجتمع الأبحاث دورًا في تشكيل التكرارات اللاحقة.

دفعة مستمرة لبناء أسس مفتوحة

مع Genesis II، تعزز QVAC موقفها بأن بيانات تدريب مفتوحة ومنظمة ضرورية لبناء أنظمة ذكاء اصطناعي موثوقة. يعكس الإصدار رؤية مفادها أن الذكاء يجب أن يستند إلى الاستدلال والشرح، وليس مجرد الارتباط الإحصائي.

ومع أن أنظمة الذكاء الاصطناعي أصبحت أكثر اندماجًا في التعليم والعلوم والخدمات المالية، بما في ذلك تطبيقات التكنولوجيا المالية، ستظل جودة بيانات تدريبها مصدر قلق مركزي.

وحتى الآن، تقف مجموعة Genesis الموسعة كإسهام ملحوظ في أبحاث Open AI، مقدمةً نطاقًا واسعًا وبنيةً منظمة وإتاحةً على مستوى نادرًا ما يُرى خارج البيئات المملوكة.

شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
  • أعجبني
  • تعليق
  • إعادة النشر
  • مشاركة
تعليق
إضافة تعليق
إضافة تعليق
لا توجد تعليقات
  • Gate Fun الساخن

    عرض المزيد
  • القيمة السوقية:$2.28Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:1
    0.00%
  • القيمة السوقية:$0.1عدد الحائزين:1
    0.00%
  • القيمة السوقية:$2.26Kعدد الحائزين:0
    0.00%
  • تثبيت