العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
منصة الإطلاق
كن من الأوائل في الانضمام إلى مشروع التوكن الكبير القادم
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
تيثر توسع بيانات تدريب الذكاء الاصطناعي المفتوحة بإصدار مجموعة بيانات QVAC Genesis II
اكتشف أبرز أخبار وأحداث التكنولوجيا المالية!
اشترك في النشرة الإخبارية لـ FinTech Weekly
يقرأها التنفيذيون في JP Morgan وCoinbase وBlackrock وKlarna وغيرهم
توسّع كبير في بيانات التدريب الخاصة بـ Open AI
أصدرت Tether Data نسخة جديدة من مجموعة بياناتها التعليمية الاصطناعية للذكاء الاصطناعي، ما يزيد بشكل كبير من حجم ونطاق مواد التدريب المفتوحة المتاحة للباحثين حول العالم. وقد أعلنت الشعبة البحثية في مجال الذكاء الاصطناعي لدى الشركة، QVAC، أن الإصدار الجديد، المُسمّى QVAC Genesis II، يضيف 107 مليار توكن إلى مجموعتها السابقة، ليصل الحجم الإجمالي إلى 148 مليار توكن.
تُعد مجموعة البيانات الموسّعة الآن أكبر مورد تعليمي اصطناعي متاح علنًا والمصمم خصيصًا لمرحلة ما قبل تدريب الذكاء الاصطناعي. وتمتد عبر 19 مجالًا أكاديميًا، وتهدف إلى تحسين كيفية تعلّم النماذج للاستدلال والتفسير واتخاذ القرار بدلًا من التعرّف على الأنماط على مستوى سطحي.
يقدّم هذا الإعلان الإصدار خطوة نحو تطوير ذكاء اصطناعي أكثر شفافية وإتاحة، في وقت لا تزال فيه العديد من مجموعات بيانات التدريب المتقدمة محبوسة داخل أنظمة مملوكة.
البناء على الإصدار الأول Genesis
يستند QVAC Genesis II إلى العمل الذي تم تقديمه لأول مرة مع Genesis I، والذي ركّز على إنشاء مجموعة بيانات اصطناعية تعليمية مُتحقَّق من صحتها ومتمحورة حول التعليم، تغطي المواد الأساسية في العلوم والتكنولوجيا والهندسة والرياضيات. وقد وضع الإصدار السابق إطارًا لتوليد أسئلة تدريبية منظّمة بهدف تحسين دقة الاستدلال.
يوسّع الإصدار الجديد نطاق التغطية إلى عشرة مجالات إضافية، بما في ذلك الكيمياء وعلوم الكمبيوتر والإحصاء والتعلّم الآلي وعلم الفلك والجغرافيا والقياس الاقتصادي والهندسة الكهربائية. كما يعيد النظر في محتوى الفيزياء على مستوى الكليات، ويُعيد توليده باستخدام منهجية مُحدّثة مصممة لتحسين الوضوح المفاهيمي.
معًا، يشكّل الإصداران ما تصفه QVAC بأنه أوسع مجموعة بيانات تعليمية اصطناعية تم إتاحتها للجمهور حتى الآن. والمجموعة مصممة للاستخدام في ما قبل تدريب نماذج اللغات الكبيرة وغيرها من أنظمة الذكاء الاصطناعي التي تتطلب مادة أكاديمية منظّمة.
تحوّل في كيفية توليد بيانات التدريب
في قلب Genesis II توجد طريقة جديدة لتوليد البيانات تُشار إليها باسم Option-Level Reasoning. تختلف هذه المقاربة عن كثير من تقنيات البيانات الاصطناعية الحالية عبر التركيز ليس فقط على الإجابات غير الصحيحة، بل أيضًا على الإجابات الصحيحة.
بدلًا من اعتبار الاستجابة الصحيحة نهاية العملية، تقوم المنهجية بتحليل كل خيار إجابة في سؤال من متعدد الخيارات. تُفكك الاختيارات الصحيحة بهدف تعزيز سبب كونها صحيحة، بينما تُفحص الخيارات غير الصحيحة لمعالجة المفاهيم الخاطئة الشائعة. يتيح هذا الترتيب للنماذج تعلّم الاستدلال السببي ومنطق اتخاذ القرار بدلًا من مجرد الربط بين الأسئلة والنتائج.
تتوافق هذه المقاربة مع منهج Failure Analysis الذي تم إدخاله في Genesis I، والذي ركّز على استخراج القيمة من أخطاء النماذج. وبالاشتراك، تشكّل الطريقتان خطًا إنتاجيًا تُصمَّم فيه كل مسألة يتم توليدها بحيث تساهم بقيمة تعليمية.
تشير تقييمات مستقلة استشهدت بها QVAC إلى أن النماذج المُدرّبة على بيانات Genesis II تُظهر دقة استدلال أعلى وتُنتج إجابات أوضح من تلك المُدرّبة على مجموعات البيانات الاصطناعية السابقة.
التركيز على الفهم بدل الطلاقة
يعتمد جزء كبير من منظومة تدريب الذكاء الاصطناعي الحالية على تجميع كميات ضخمة جدًا من النصوص، غالبًا يتم جمعها من مصادر عامة، بهدف تحسين الطلاقة اللغوية. يختلف هدف QVAC المعلن في طريقة التركيز. فقد صُممت مجموعات Genesis لتعليم النماذج كيفية الاستدلال عبر المشكلات وكيفية شرح الاستنتاجات بطريقة واضحة.
أوضحت قيادة الشركة أن النية هي تجاوز أنظمة التدريب التي تتنبأ بتسلسلات نصية محتملة فقط، نحو نماذج تُظهر فهمًا للمفاهيم الكامنة. تعطي تصميم مجموعة البيانات الأولوية للوضوح والسببية والمنطق، بهدف تقليل الغموض في مخرجات النماذج.
تتماشى هذه المقاربة مع المناقشات الأوسع في أبحاث الذكاء الاصطناعي حول الاعتمادية وقابلية التفسير، خصوصًا مع استخدام أنظمة الذكاء الاصطناعي في التعليم والعلوم وسياقات دعم اتخاذ القرار.
إتاحة مفتوحة للباحثين والمطورين
كما هو الحال مع مجموعة بيانات Genesis الأصلية، يتم إصدار QVAC Genesis II بشكل مفتوح. تتوفر مجموعة البيانات تحت رخصة Creative Commons Attribution–NonCommercial 4.0، ما يسمح للباحثين والمؤسسات الأكاديمية والمطورين المستقلين باستخدام البيانات ودراستها خارج الإعدادات التجارية.
تستضيف Hugging Face مجموعة البيانات والنماذج المرتبطة بها، إلى جانب ورقة بحثية تقنية مفصلة تتناول منهجية التوليد ونتائج التقييم. ويهدف هذا النشر المفتوح إلى خفض العوائق أمام الباحثين الذين لا يملكون إمكانية الوصول إلى مجموعات بيانات مملوكة كبيرة.
ومن خلال الحفاظ على الترخيص غير التجاري، تهدف QVAC إلى دعم البحث الأكاديمي والبحث المدفوع بالمجتمع، مع الحد من الاستغلال التجاري المباشر.
دعم تطوير ذكاء اصطناعي لامركزي
يتناسب الإصدار أيضًا مع استراتيجية أوسع سعت إليها Tether Data لتشجيع تطوير ذكاء اصطناعي لامركزي. وقد ذكرت الشركة أن بيانات التدريب عالية الجودة لا ينبغي تقييدها بالمؤسسات التي لديها إمكانية الوصول إلى بنية تحتية سحابية مركزية.
ومن خلال إتاحة مجموعات بيانات منظمة واسعة النطاق بشكل علني، تسعى QVAC إلى تمكين التدريب المحلي والتجريب ونشر نماذج الذكاء الاصطناعي. ومن المفترض أن تدعم هذه المقاربة بيئات بحثية قد تكون فيها موارد الحوسبة محدودة، لكن تظل المساهمات الفكرية ذات أهمية كبيرة.
يعكس التركيز على اللامركزية الاهتمام المتزايد بتقليل الاعتماد على عدد صغير من منصات الذكاء الاصطناعي المهيمنة، وتعزيز منظومة بحثية أكثر توزيعًا.
دور Tether في أبحاث الذكاء الاصطناعي
تعمل QVAC كقسم أبحاث الذكاء الاصطناعي في Tether Data. وبالرغم من أن Tether معروفة على نطاق واسع بدورها في الأصول الرقمية والستابل كوينز، فقد وسعت الشركة أنشطتها إلى أبحاث البيانات والذكاء الاصطناعي في السنوات الأخيرة.
ومن خلال QVAC، ركّزت Tether Data على بناء البنية التحتية والموارد التي تدعم البحث المفتوح. تمثل مجموعات بيانات Genesis أحد أبرز مخرجات هذا الجهد، ما يضع الشركة ضمن النقاشات المتعلقة بتطوير Open AI وبيانات التدريب التي تركز على التعليم.
تعكس هذه الأعمال أيضًا التداخل المتزايد بين شركات التكنولوجيا المالية وأبحاث الذكاء الاصطناعي المتقدمة، إذ تستثمر شركات التكنولوجيا المالية بشكل متزايد في قدرات علوم البيانات والتعلّم الآلي.
منظور القيادة حول الإصدار
قدّمت قيادة الشركة إصدار Genesis II على أنه ابتعاد عن مقاربات التدريب التي تُعطي الأولوية للحجم وحده. ووفقًا لما ورد في تصريحات من فريق القيادة التنفيذي في Tether، فإن التركيز هو تعليم أنظمة الذكاء الاصطناعي كيفية الاستدلال وشرح الإجابات بدلًا من الاكتفاء بتوليد ردود أكثر طلاقة.
أكد Paolo Ardoino، الرئيس التنفيذي في Tether، أن الذكاء الاصطناعي الموثوق ينبغي أن يكون مبنيًا على فهم سبب صحة الإجابات. كما أشار إلى أن إتاحة مجموعة البيانات بشكل علني تعكس اعتقادًا بأن ذكاء اصطناعي أقوى وأكثر قابلية للتفسير يعود بالنفع على المجتمع ككل.
وتتردد هذه الآراء صدى لمخاوف أثارها باحثون بشأن حدود النماذج المُدرّبة بشكل أساسي على نص غير مُهيكل.
النطاق التعليمي وتغطية المجالات
تغطي مجموعتا Genesis I وII معًا 19 مجالًا، بمحتوى مصمم لمستويي التعليم الثانوي والجامعي. تتراوح المواد بين الرياضيات والفيزياء الأساسيتين، وصولًا إلى مجالات تطبيقية مثل القياس الاقتصادي والتعلّم الآلي.
يتضمن كل مجال أسئلة منظمة وتفسيرات ومسارات استدلال مقصودة لمحاكاة طريقة تدريس المفاهيم وتقييمها في البيئات التعليمية الرسمية. ويهدف هذا التصميم إلى دعم مهام ما قبل التدريب التي تتطلب اتساقًا منطقيًا وعمقًا مفاهيميًا.
ومن خلال إعادة توليد وتوسيع المحتوى باستخدام منهجيات محسّنة، تهدف QVAC إلى تحسين طريقة تمثيل المواد التعليمية في مجموعات البيانات الاصطناعية.
التقييم وأداء النماذج
وفقًا لتقييمات داخلية ومستقلة أشارت إليها QVAC، تُظهر النماذج المُدرّبة على بيانات Genesis II أداءً أفضل في المهام التي تتطلب الاستدلال بشكل كبير. وتشمل هذه المهام الإجابة عن أسئلة منظّمة، وشرح الاستنتاجات، وتجنب الردود الغامضة أو المتناقضة.
تشير نتائج التقييم إلى أن الجمع بين Failure Analysis وOption-Level Reasoning يؤدي إلى مخرجات أكثر اتساقًا. ورغم أن الشركة لم تقدم مجموعة البيانات باعتبارها حلًا مستقلًا، فقد عرضتها كأساس قوي لمزيد من التدريب والضبط الدقيق.
ومن المتوقع أن يجري الباحثون تقييمات إضافية مع زيادة استخدام مجموعة البيانات على نطاق أوسع داخل المجتمع.
آثار على أبحاث Open AI
قد يؤثر إصدار مجموعة بيانات كبيرة ومفتوحة كهذه على كيفية تعامل الباحثين الأكاديميين والمستقلين مع تدريب النماذج. إذ إن الوصول إلى بيانات تعليمية منظّمة بهذا الحجم كان تقليديًا مقتصرًا على المؤسسات الممولة جيدًا.
ومن خلال توفير بديل، يمكن أن تدعم QVAC Genesis II التجريب باستخدام نماذج أصغر، وجهود تدريب محلية، وأبحاثًا في أساليب ذكاء اصطناعي قابل للتفسير.
قد تعمل مجموعة البيانات أيضًا كمعيار لمشروعات بيانات اصطناعية مستقبلية تضع جودة الاستدلال فوق مجرد الحجم.
المكانة ضمن منظومة الذكاء الاصطناعي الأوسع
تدخل QVAC Genesis II منظومة ذكاء اصطناعي تتسم بتطور سريع وتزايد تركّز الموارد. تتم دراية العديد من أكثر النماذج قدرة على مجموعات بيانات مملوكة لا تكون متاحة للفحص أو إعادة الإنتاج.
توفر مجموعات البيانات المفتوحة مثل Genesis II نقطة مقابلة، عبر تمكين الشفافية والتقدم المشترك. كما تثير أسئلة حول كيفية التعايش بين الموارد المفتوحة وتطوير الذكاء الاصطناعي التجاري.
يُبرز انخراط شركة متجذرة في التكنولوجيا المالية والأصول الرقمية كيف تجتذب أبحاث الذكاء الاصطناعي الاهتمام من طيف واسع من الصناعات بعيدًا عن شركات التكنولوجيا التقليدية.
التوفر والخطوات التالية
تم نشر الوثائق التقنية الكاملة لمجموعة البيانات، بعنوان “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”، على مدونة أبحاث QVAC. يتاح الوصول إلى مجموعة البيانات والنماذج المرتبطة بها عبر Hugging Face.
أشارت QVAC إلى أنها تخطط لمواصلة تحسين منهجياتها وتوسيع التغطية التعليمية في الإصدارات القادمة. ومن المتوقع أن تلعب الملاحظات القادمة من مجتمع البحث دورًا في تشكيل الدورات اللاحقة.
دفعة مستمرة لبناء أسس مفتوحة
مع Genesis II، تعزز QVAC موقفها بأن بيانات التدريب المفتوحة والمنظمة ضرورية لبناء أنظمة ذكاء اصطناعي موثوقة. يعكس الإصدار وجهة نظر مفادها أن الذكاء ينبغي أن يكون مبنيًا على الاستدلال والشرح، لا على الارتباطات الإحصائية فحسب.
ومع أن أنظمة الذكاء الاصطناعي تصبح أكثر تكاملًا في التعليم والعلوم والخدمات المالية، بما في ذلك تطبيقات التكنولوجيا المالية، ستظل جودة بيانات تدريبها مصدر قلق مركزي.
وفي الوقت الراهن، تقف مجموعة Genesis الموسعة كمساهمة ملحوظة في أبحاث Open AI، حيث تقدم نطاقًا وهيكلة وإتاحة بمستوى نادرًا ما يُرى خارج البيئات المملوكة.