تيثر توسع بيانات تدريب الذكاء الاصطناعي المفتوحة بإصدار مجموعة بيانات QVAC Genesis II

SleepTrader

2026-03-30 16:31:00

اكتشف أبرز أخبار وأحداث التكنولوجيا المالية!

اشترك في النشرة الإخبارية لـ FinTech Weekly

يطلع عليها كبار التنفيذيين في JP Morgan وCoinbase وBlackrock وKlarna وغيرها

توسع كبير في بيانات تدريب Open AI

أصدرت Tether Data إصدارًا جديدًا من مجموعة بياناتها التعليمية الاصطناعية للذكاء الاصطناعي، مما يزيد بشكل كبير حجم نطاق مادة التدريب المفتوحة المتاحة للباحثين في جميع أنحاء العالم. وقد أعلنت شعبة أبحاث الذكاء الاصطناعي التابعة للشركة، QVAC، أن الإصدار الجديد، الذي يحمل اسم QVAC Genesis II، يضيف 107 مليارات من الرموز إلى مجموعة البيانات السابقة، ليصل إجمالي الحجم إلى 148 مليار رمز.

تُعد مجموعة البيانات الموسعة الآن أكبر مورد تعليمي اصطناعي متاح علنًا والمصمم خصيصًا لمرحلة ما قبل تدريب الذكاء الاصطناعي. وتمتد على 19 مجالًا أكاديميًا، وتهدف إلى تحسين كيفية تعلم النماذج للاستدلال والتفسير واتخاذ القرار، بدلًا من التعرف على الأنماط على مستوى سطحي.

يضع الإعلان الإصدار كخطوة نحو تطوير ذكاء اصطناعي أكثر شفافية وإتاحة، في وقت لا تزال فيه العديد من مجموعات بيانات التدريب المتقدمة محجوزة داخل أنظمة خاصة.

البناء على إصدار Genesis الأول

تُبنى QVAC Genesis II على العمل الذي تم تقديمه أولًا مع Genesis I، والذي ركز على إنشاء مجموعة بيانات اصطناعية مُتحقق منها ومتمحورة حول التعليم، تغطي المواد الأساسية في العلوم والتكنولوجيا والهندسة والرياضيات. وقد وضع الإصدار السابق إطارًا لتوليد أسئلة تدريبية منظمة تستهدف تحسين دقة الاستدلال.

ويُوسع الإصدار الجديد التغطية إلى عشر مجالات إضافية، تشمل الكيمياء وعلوم الحاسوب والإحصاء والتعلم الآلي وعلم الفلك والجغرافيا والاقتصاد القياسي والهندسة الكهربائية. كما يعيد النظر في محتوى الفيزياء على مستوى الكلية، من خلال إعادة توليده باستخدام منهجية مُحدّثة مصممة لتحسين وضوح المفاهيم.

معًا، يشكل الإصداران ما تصفه QVAC بأنه أكثر مجموعة بيانات تعليمية اصطناعية شمولًا حتى الآن تم إتاحتها للعامة. ومن المقرر استخدام مجموعة البيانات في ما قبل تدريب نماذج اللغات الكبيرة وغيرها من أنظمة الذكاء الاصطناعي التي تتطلب مادة أكاديمية منظمة.

تحول في كيفية توليد بيانات التدريب

في قلب Genesis II توجد طريقة جديدة لتوليد البيانات تُسمى Option-Level Reasoning. تختلف هذه المقاربة عن العديد من تقنيات البيانات الاصطناعية الحالية من خلال التركيز ليس فقط على الإجابات غير الصحيحة، بل أيضًا على الصحيحة.

بدلًا من اعتبار الاستجابة الصحيحة نهاية العملية، يقوم الأسلوب بتحليل كل خيار إجابة في سؤال متعدد الخيارات. يتم تفكيك الاختيارات الصحيحة لتعزيز لماذا هي صحيحة، بينما يتم فحص الاختيارات غير الصحيحة لمعالجة المفاهيم الخاطئة الشائعة. يتيح هذا الهيكل للنماذج تعلم الاستدلال السببي ومنطق اتخاذ القرار بدلًا من الاكتفاء بربط الأسئلة بالنتائج.

تتوافق هذه المقاربة مع أسلوب Failure Analysis الذي تم تقديمه في Genesis I، والذي ركز على استخراج القيمة من أخطاء النموذج. معًا، تشكل الطريقتان خط إنتاج تُصمم فيه كل مسألة مُولدة لتساهم بقيمة تعليمية.

تشير التقييمات المستقلة التي استشهدت بها QVAC إلى أن النماذج التي تم تدريبها على بيانات Genesis II تُظهر دقة أعلى في الاستدلال وتنتج إجابات أوضح من تلك التي تم تدريبها على مجموعات بيانات اصطناعية سابقة.

التركيز على الفهم بدلًا من الطلاقة

يعتمد جزء كبير من منظومة تدريب الذكاء الاصطناعي الحالية على تجميع كميات كبيرة جدًا من النصوص، وغالبًا ما يتم جلبها من مصادر عامة، لتحسين الطلاقة اللغوية. يختلف الهدف المُعلن لدى QVAC من حيث التركيز. فمجموعات بيانات Genesis مُنظمة لتعليم النماذج كيفية الاستدلال عبر المشكلات وتفسير الاستنتاجات بطريقة واضحة.

أفادت قيادة الشركة بأن النية هي تجاوز أنظمة التدريب التي تتنبأ بتسلسلات نصية محتملة، نحو نماذج تُظهر فهمًا للمفاهيم الكامنة. وتمنح تصميم مجموعة البيانات الأولوية للوضوح والسببية والمنطق، بهدف تقليل الغموض في مخرجات النموذج.

تتوافق هذه المقاربة مع النقاشات الأوسع في أبحاث الذكاء الاصطناعي حول الاعتمادية وقابلية التفسير، خصوصًا عندما تُستخدم أنظمة الذكاء الاصطناعي في التعليم والعلوم وسياقات دعم اتخاذ القرار.

إتاحة الوصول المفتوح للباحثين والمطورين

كما هو الحال مع مجموعة بيانات Genesis الأصلية، يتم إصدار QVAC Genesis II بشكل مفتوح. وتتوفر مجموعة البيانات بموجب ترخيص Creative Commons Attribution–NonCommercial 4.0، ما يسمح للباحثين والمؤسسات الأكاديمية والمطورين المستقلين باستخدام البيانات ودراستها خارج الإعدادات التجارية.

يستضيف موقع Hugging Face مجموعة البيانات والنماذج المرتبطة بها، إلى جانب ورقة بحثية تقنية مفصلة توضح منهجية التوليد ونتائج التقييم. تهدف هذه التوزيعة المفتوحة إلى خفض العوائق أمام الباحثين الذين لا تتوفر لديهم إمكانية الوصول إلى مجموعات بيانات خاصة كبيرة.

ومن خلال الحفاظ على الترخيص غير التجاري، تهدف QVAC إلى دعم الأبحاث الأكاديمية والأبحاث المدفوعة من المجتمع، مع الحد من الاستغلال التجاري المباشر.

دعم تطوير ذكاء اصطناعي لا مركزي

يندرج الإصدار أيضًا ضمن استراتيجية أوسع تتبعها Tether Data لتشجيع تطوير ذكاء اصطناعي لا مركزي. وقد ذكرت الشركة أن بيانات التدريب عالية الجودة لا ينبغي تقييدها على المؤسسات التي لديها وصول إلى بنية تحتية سحابية مركزية.

ومن خلال إتاحة مجموعات بيانات منظمة واسعة النطاق للعامة، تسعى QVAC إلى تمكين التدريب المحلي والتجريب ونشر نماذج الذكاء الاصطناعي. ومن المقصود أن تدعم هذه المقاربة بيئات البحث التي قد تكون فيها موارد الحوسبة محدودة، لكن تظل المساهمات الفكرية كبيرة.

يعكس التركيز على اللامركزية الاهتمام المتزايد بالحد من الاعتماد على عدد محدود من منصات ذكاء اصطناعي مهيمنة، وتعزيز نظام بحث أكثر توزيعًا.

دور Tether في أبحاث الذكاء الاصطناعي

تعمل QVAC كشعبة أبحاث الذكاء الاصطناعي التابعة لـ Tether Data. ومع أن Tether معروفة على نطاق واسع بدورها في الأصول الرقمية والـ stablecoins، فقد وسعت الشركة أنشطتها في السنوات الأخيرة لتشمل أبحاث البيانات والذكاء الاصطناعي.

ومن خلال QVAC، ركزت Tether Data على بناء البنية التحتية والموارد التي تدعم الأبحاث المفتوحة. وتمثل مجموعات بيانات Genesis أحد أكثر مخرجات هذا الجهد وضوحًا، إذ تضع الشركة في قلب النقاشات المتعلقة بتطوير Open AI وبيانات التدريب المتمحورة حول التعليم.

كما تعكس هذه الأعمال التداخل المتنامي بين شركات التكنولوجيا المالية وأبحاث الذكاء الاصطناعي المتقدمة، إذ تستثمر شركات التكنولوجيا المالية بشكل متزايد في قدرات علوم البيانات والتعلم الآلي.

منظور القيادة حول الإصدار

قدمت قيادة الشركة إصدار Genesis II باعتباره ابتعادًا عن أساليب التدريب التي تركز على الحجم وحده. وبحسب التصريحات الصادرة عن فريق القيادة التنفيذي في Tether، فإن التركيز يتمثل في تعليم أنظمة الذكاء الاصطناعي كيفية الاستدلال وشرح الإجابات بدلًا من مجرد توليد ردود شفهية بطلاقة.

وقد أكد Paolo Ardoino، الرئيس التنفيذي لـ Tether، أن الذكاء الاصطناعي الموثوق يجب أن يستند إلى فهم سبب صحة الإجابات. كما أشار إلى أن إتاحة مجموعة البيانات بشكل مفتوح تعكس قناعة بأن الذكاء الاصطناعي الأقوى والأكثر قابلية للتفسير يفيد المجتمع ككل.

وتتردد صدى هذه الآراء لدى المخاوف التي طرحها الباحثون حول حدود النماذج التي يتم تدريبها أساسًا على نص غير منظم.

النطاق التعليمي وتغطية المجالات

تغطي مجموعتا Genesis I وII مجتمعتين 19 مجالًا، بمحتوى مصمم لمستويات التعليم الثانوي والجامعي. تتراوح المواد من الرياضيات والفيزياء الأساسية إلى مجالات تطبيقية مثل الاقتصاد القياسي والتعلم الآلي.

ويشمل كل مجال أسئلة منظمة وتفسيرات ومسارات استدلال تهدف إلى محاكاة كيفية تدريس المفاهيم وتقييمها في البيئات التعليمية الرسمية. ومن المفترض أن يدعم هذا التصميم مهام ما قبل التدريب التي تتطلب الاتساق المنطقي والعمق المفاهيمي.

ومن خلال إعادة توليد المحتوى وتوسيعه باستخدام أساليب محسنة، تهدف QVAC إلى تحسين كيفية تمثيل المواد التعليمية داخل مجموعات البيانات الاصطناعية.

التقييم وأداء النماذج

وفقًا للتقييمات الداخلية والمستقلة المشار إليها من قبل QVAC، تُظهر النماذج التي تم تدريبها على بيانات Genesis II أداءً أفضل في المهام التي تتطلب الاستدلال بشكل كبير. وتشمل هذه المهام الإجابة عن الأسئلة المنظمة وشرح الاستنتاجات وتجنب الردود الغامضة أو المتناقضة.

تشير نتائج التقييم إلى أن الجمع بين Failure Analysis وOption-Level Reasoning يؤدي إلى مخرجات أكثر اتساقًا. ورغم أن الشركة لم تضع مجموعة البيانات بوصفها حلًا قائمًا بذاته، فقد قدمتها كأساس قوي لمزيد من التدريب والتحسين الدقيق.

ومن المتوقع أن يجري الباحثون تقييمات إضافية مع زيادة استخدام مجموعة البيانات على نطاق أوسع في المجتمع.

الآثار على أبحاث Open AI

قد يؤثر إصدار مجموعة بيانات بهذا الحجم الكبير والمفتوح على كيفية تعامل الباحثين الأكاديميين والمستقلين مع تدريب النماذج. إذ إن الوصول إلى بيانات تعليمية منظمة بهذا المستوى من الحجم كان تقليديًا محدودًا على المؤسسات ذات التمويل الجيد.

ومن خلال توفير بديل، قد تدعم QVAC Genesis II التجريب باستخدام نماذج أصغر، وجهود تدريب محلية، وأبحاثًا في أساليب ذكاء اصطناعي قابل للتفسير.

وقد تعمل مجموعة البيانات أيضًا كمعيار لمشاريع بيانات اصطناعية مستقبلية تعطي الأولوية لجودة الاستدلال على مجرد الحجم.

المكانة داخل منظومة الذكاء الاصطناعي الأوسع

تدخل QVAC Genesis II منظومة ذكاء اصطناعي تتسم بتطور سريع وزيادة تركيز الموارد. يتم تدريب العديد من أكثر النماذج قدرة على مجموعات بيانات خاصة لا يمكن الوصول إليها للتدقيق أو النسخ.

توفر مجموعات البيانات المفتوحة مثل Genesis II نقطة مقابلة، إذ تتيح الشفافية والتقدم المشترك. كما تطرح أسئلة حول كيفية التعايش بين الموارد المفتوحة وتطوير ذكاء اصطناعي تجاري.

ويُبرز انخراط شركة متجذرة في التكنولوجيا المالية والأصول الرقمية كيف أن أبحاث الذكاء الاصطناعي تجذب اهتمامًا من طيف واسع من الصناعات خارج شركات التكنولوجيا التقليدية.

التوفر والخطوات التالية

تم نشر الوثائق التقنية الكاملة لمجموعة البيانات، بعنوان “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”، على مدونة أبحاث QVAC. وتتوفر إمكانية الوصول إلى مجموعة البيانات والنماذج المرتبطة بها عبر Hugging Face.

وأشارت QVAC إلى أنها تخطط للاستمرار في تحسين أساليبها وتوسيع التغطية التعليمية في الإصدارات القادمة. ومن المتوقع أن تلعب ملاحظات مجتمع الأبحاث دورًا في تشكيل النسخ اللاحقة.

دفعة مستمرة لبناء قواعد مفتوحة

مع Genesis II، تعزز QVAC موقفها بأن بيانات تدريب مفتوحة ومنظمة ضرورية لبناء أنظمة ذكاء اصطناعي موثوقة. يعكس الإصدار رؤية مفادها أن الذكاء ينبغي أن يستند إلى الاستدلال والشرح، لا إلى مجرد الارتباط الإحصائي.

وبما أن أنظمة الذكاء الاصطناعي أصبحت أكثر اندماجًا في التعليم والعلوم والخدمات المالية، بما في ذلك تطبيقات التكنولوجيا المالية (fintech)، ستظل جودة بيانات تدريبها محورًا أساسيًا للقلق.

وحتى الآن، تقف مجموعة بيانات Genesis الموسعة كإسهام ملحوظ في أبحاث Open AI، إذ تقدم نطاقًا وبنية وإتاحة بمستوى نادرًا ما يُرى خارج البيئات الخاصة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateGoldenTouch
68.94K درجة الشعبية
#
CryptoMarketsRiseBroadly
32.16K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
19.32K درجة الشعبية
#
PowellDovishRemarksReviveRateCutHopes
2.82M درجة الشعبية
#
TrumpSignalsPossibleCeasefire
409.07K درجة الشعبية

Gate Fun الساخن
عرض المزيد

1
mb
macbook
القيمة السوقية:$2.27Kعدد الحائزين:2
0.00%
2
TBKB
特不靠谱
القيمة السوقية:$2.37Kعدد الحائزين:2
1.04%
3
ch
chill
القيمة السوقية:$2.24Kعدد الحائزين:1
0.00%
4
MIP
MIP
القيمة السوقية:$2.24Kعدد الحائزين:1
0.00%
5
Usdc
Usdc
القيمة السوقية:$2.25Kعدد الحائزين:1
0.00%

تثبيت

خريطة الموقع

تيثر توسع بيانات تدريب الذكاء الاصطناعي المفتوحة بإصدار مجموعة بيانات QVAC Genesis II

توسع كبير في بيانات تدريب Open AI

البناء على إصدار Genesis الأول

تحول في كيفية توليد بيانات التدريب

التركيز على الفهم بدلًا من الطلاقة

إتاحة الوصول المفتوح للباحثين والمطورين

دعم تطوير ذكاء اصطناعي لا مركزي

دور Tether في أبحاث الذكاء الاصطناعي

منظور القيادة حول الإصدار

النطاق التعليمي وتغطية المجالات

التقييم وأداء النماذج

الآثار على أبحاث Open AI

المكانة داخل منظومة الذكاء الاصطناعي الأوسع

التوفر والخطوات التالية

دفعة مستمرة لبناء قواعد مفتوحة

المواضيع الرائجة

GateGoldenTouch

CryptoMarketsRiseBroadly

IsraelStrikesIranBTCPlunges

PowellDovishRemarksReviveRateCutHopes

TrumpSignalsPossibleCeasefire

Gate Fun الساخن

mb

macbook

TBKB

特不靠谱

ch

chill

MIP

MIP

Usdc

Usdc

تثبيت