تيثر توسع بيانات تدريب الذكاء الاصطناعي المفتوحة بإصدار مجموعة بيانات QVAC Genesis II

SleepTrader

2026-04-03 08:56:09

اكتشف أبرز أخبار وفعاليات التكنولوجيا المالية!

اشترك في النشرة الإخبارية لـ FinTech Weekly

يقرأها مسؤولون تنفيذيون في JP Morgan وCoinbase وBlackrock وKlarna وغيرهم

توسع كبير في بيانات تدريب Open AI

أصدرت Tether Data إصدارًا جديدًا من مجموعة بيانات تعليمية اصطناعية لأغراض الذكاء الاصطناعي، مما زاد بشكل ملحوظ من حجم ونطاق مواد التدريب المفتوحة المتاحة للباحثين حول العالم. أعلنت الشعبة البحثية في مجال الذكاء الاصطناعي لدى الشركة، QVAC، أن الإصدار الجديد، المسمّى QVAC Genesis II، يضيف 107 مليارات توكن إلى مجموعتها السابقة، ليصل الحجم الإجمالي إلى 148 مليار توكن.

تُعد مجموعة البيانات الموسعة الآن أكبر مورد تعليمي اصطناعي متاح علنًا ومصممًا خصيصًا لمرحلة ما قبل تدريب الذكاء الاصطناعي. وتمتد عبر 19 مجالًا أكاديميًا، وهي مصممة لتحسين كيفية تعلم النماذج للاستدلال وشرح النتائج واتخاذ القرارات بدلًا من الاعتماد على التعرف السطحي على الأنماط.

تقدّم هذه الإعلانات الإصدار بوصفه خطوة نحو تطوير ذكاء اصطناعي أكثر شفافية وإتاحة، في وقت لا تزال فيه العديد من مجموعات بيانات التدريب المتقدمة محبوسة داخل أنظمة مملوكة.

البناء على إصدار Genesis الأول

تستند QVAC Genesis II إلى العمل الذي تم طرحه لأول مرة مع Genesis I، والذي ركّز على إنشاء مجموعة بيانات اصطناعية مُتحقق منها ومركزة على التعليم، تغطي المواد الأساسية في العلوم والتكنولوجيا والهندسة والرياضيات. وقد أسّس الإصدار الأسبق إطارًا لإنتاج أسئلة تدريبية مُهيكلة بهدف تحسين دقة الاستدلال.

يُوسّع الإصدار الجديد نطاق التغطية إلى عشر مجالات إضافية، بما في ذلك الكيمياء وعلوم الكمبيوتر والإحصاء والتعلم الآلي وعلم الفلك والجغرافيا والاقتصاد القياسي والهندسة الكهربائية. كما يعيد النظر في محتوى الفيزياء على مستوى الكلية، من خلال إعادة توليده باستخدام منهجية محدّثة صُممت لتحسين وضوح المفاهيم.

وبالاجتماع بين الإصدارين، يتشكّل ما تصفه QVAC بأنه أوسع مجموعة بيانات تعليمية اصطناعية حتى الآن تم إتاحتها للعامة. تهدف مجموعة البيانات إلى استخدامها في ما قبل تدريب نماذج اللغات الكبيرة وغيرها من أنظمة الذكاء الاصطناعي التي تتطلب موادًا أكاديمية مُهيكلة.

تحول في كيفية توليد بيانات التدريب

تتمثل في صميم Genesis II طريقة جديدة لتوليد البيانات تُسمى Option-Level Reasoning. تختلف هذه المقاربة عن العديد من تقنيات البيانات الاصطناعية القائمة من خلال التركيز ليس فقط على الإجابات غير الصحيحة، بل أيضًا على الإجابات الصحيحة.

بدلًا من اعتبار الاستجابة الصحيحة نهاية العملية، تقوم المنهجية بتحليل كل خيار إجابة في سؤال متعدد الخيارات. يتم تفصيل الاختيارات الصحيحة لتعزيز سبب صحتها، بينما تتم دراسة الخيارات غير الصحيحة لمعالجة المفاهيم الخاطئة الشائعة. يتيح هذا الهيكل للنماذج تعلم الاستدلال السببي ومنطق القرار بدلًا من مجرد ربط الأسئلة بالنتائج.

وتتوافق هذه المقاربة مع منهجية Failure Analysis التي تم تقديمها في Genesis I، والتي ركزت على استخراج القيمة من أخطاء النموذج. وبالتعاون بين الطريقتين، يتشكل خط إنتاج تُصمم فيه كل مسألة مُولّدة لتُسهم بقيمة تعليمية.

تشير تقييمات مستقلة استشهدت بها QVAC إلى أن النماذج المدربة على بيانات Genesis II تُظهر دقة استدلال أعلى وتنتج إجابات أوضح مقارنةً بالنماذج المدربة على مجموعات بيانات اصطناعية أقدم.

التركيز على الفهم بدلًا من الطلاقة

يعتمد جزء كبير من نظام تدريب الذكاء الاصطناعي الحالي على تجميع كميات كبيرة جدًا من النص، غالبًا ما يتم جلبها من مصادر عامة، لتحسين طلاقة اللغة. يختلف الهدف المعلن لدى QVAC من حيث التركيز. تم هيكلة مجموعات بيانات Genesis لتعليم النماذج كيفية الاستدلال عبر المشكلات وكيف تشرح الاستنتاجات بطريقة واضحة.

أشارت قيادة الشركة إلى أن النية هي تجاوز أنظمة التدريب التي تتنبأ بتسلسلات النص الأكثر احتمالًا، نحو نماذج تُظهر فهمًا للمفاهيم الكامنة. ويعطي تصميم مجموعة البيانات الأولوية للوضوح والسببية والمنطق، بهدف تقليل الغموض في مخرجات النموذج.

تتوافق هذه المقاربة مع النقاشات الأوسع في أبحاث الذكاء الاصطناعي حول الموثوقية وقابلية التفسير، خاصة عندما تُستخدم أنظمة الذكاء الاصطناعي في التعليم والعلوم وسياقات دعم اتخاذ القرار.

إتاحة مفتوحة للباحثين والمطورين

كما هو الحال مع مجموعة بيانات Genesis الأصلية، يتم إصدار QVAC Genesis II بشكل مفتوح. تتاح مجموعة البيانات تحت ترخيص Creative Commons Attribution–NonCommercial 4.0، مما يسمح للباحثين والمؤسسات الأكاديمية والمطورين المستقلين باستخدام البيانات ودراستها خارج السياقات التجارية.

تُستضاف مجموعة البيانات والنماذج المرتبطة بها على Hugging Face، إلى جانب ورقة بحثية تقنية مفصلة توضّح منهجية التوليد ونتائج التقييم. تهدف هذه التوزيعة المفتوحة إلى خفض العوائق أمام الباحثين الذين لا تتوفر لديهم إمكانية الوصول إلى مجموعات بيانات كبيرة مملوكة.

ومن خلال الحفاظ على ترخيص غير تجاري، تهدف QVAC إلى دعم البحث الأكاديمي والبحث الذي تقوده المجتمعات مع الحد من الاستغلال التجاري المباشر.

دعم تطوير ذكاء اصطناعي لا مركزي

يتناسب الإصدار أيضًا مع استراتيجية أوسع تتبعها Tether Data بهدف تشجيع تطوير ذكاء اصطناعي لا مركزي. ذكرت الشركة أن بيانات التدريب عالية الجودة لا ينبغي تقييدها على المؤسسات التي لديها إمكانية الوصول إلى بنية تحتية سحابية مركزية.

من خلال إتاحة مجموعات بيانات كبيرة الحجم ومُهيكلة بشكل علني، تسعى QVAC إلى تمكين التدريب المحلي والتجريب ونشر نماذج الذكاء الاصطناعي. تهدف هذه المقاربة إلى دعم بيئات بحثية قد تكون فيها موارد الحوسبة محدودة، لكن تظل المساهمات الفكرية مهمة.

يعكس التركيز على اللامركزية الاهتمام المتزايد بتقليل الاعتماد على عدد قليل من منصات الذكاء الاصطناعي المهيمنة، وتعزيز نظام بحثي أكثر توزيعًا.

دور Tether في أبحاث الذكاء الاصطناعي

تعمل QVAC بوصفها شعبة أبحاث الذكاء الاصطناعي لدى Tether Data. على الرغم من أن Tether معروف على نطاق واسع بدوره في الأصول الرقمية والـ stablecoins، فقد وسعت الشركة أنشطتها في السنوات الأخيرة لتشمل أبحاث البيانات والذكاء الاصطناعي.

ومن خلال QVAC، ركزت Tether Data على بناء بنية تحتية وموارد تدعم البحث المفتوح. وتمثل مجموعات بيانات Genesis أحد أكثر المخرجات وضوحًا لهذا الجهد، ما يضع الشركة ضمن المناقشات المتعلقة بتطوير Open AI وبيانات التدريب الموجهة للتعليم.

يعكس هذا العمل أيضًا التداخل المتزايد بين شركات التكنولوجيا المالية وأبحاث الذكاء الاصطناعي المتقدمة، إذ تستثمر شركات التكنولوجيا المالية بشكل متزايد في قدرات علوم البيانات والتعلم الآلي.

وجهة نظر القيادة حول الإصدار

قدّمت قيادة الشركة إصدار Genesis II بوصفه تحولًا بعيدًا عن أساليب تدريب تُعطي الأولوية للحجم وحده. ووفقًا للتصريحات الصادرة عن فريق القيادة التنفيذي لدى Tether، فإن التركيز هو تعليم أنظمة الذكاء الاصطناعي كيفية الاستدلال وشرح الإجابات بدلًا من مجرد توليد ردود متدفقة بطلاقة.

شدد Paolo Ardoino، الرئيس التنفيذي لدى Tether، على أن الذكاء الاصطناعي الموثوق ينبغي أن يستند إلى فهم سبب صحة الإجابات. كما أوضح أن إتاحة مجموعة البيانات بشكل مفتوح تعكس قناعة بأن ذكاء اصطناعي أقوى وأكثر قابلية للتفسير يفيد المجتمع ككل.

تتردد صدى هذه الآراء مع المخاوف التي أثارها باحثون بشأن القيود المفروضة على النماذج المدربة أساسًا على نص غير مُهيكل.

النطاق التعليمي وتغطية المجالات

تغطي مجموعتا Genesis I وII مجتمعَتين 19 مجالًا، مع محتوى مُصمم لمستويات التعليم الثانوي والجامعي. وتتراوح المواد من الرياضيات والفيزياء الأساسية إلى مجالات تطبيقية مثل الاقتصاد القياسي والتعلم الآلي.

يشتمل كل مجال على أسئلة مُهيكلة وتفسيرات ومسارات استدلالية تهدف إلى محاكاة كيفية تدريس المفاهيم وتقييمها في بيئات التعليم الرسمي. ومن المفترض أن يدعم هذا التصميم مهام ما قبل التدريب التي تتطلب اتساقًا منطقيًا وعمقًا مفاهيميًا.

ومن خلال إعادة توليد المحتوى وتوسيعه باستخدام منهجيات محسّنة، تهدف QVAC إلى تحسين كيفية تمثيل المواد التعليمية داخل مجموعات البيانات الاصطناعية.

التقييم وأداء النموذج

وفقًا لتقييمات داخلية ومستقلة أوردتها QVAC، تُظهر النماذج المدربة على بيانات Genesis II أداءً محسّنًا في المهام التي تعتمد على الاستدلال بشكل كبير. وتشمل ذلك الإجابة عن أسئلة مُهيكلة، وشرح الاستنتاجات، وتجنب الردود الغامضة أو المتناقضة.

تشير نتائج التقييم إلى أن الجمع بين Failure Analysis وOption-Level Reasoning يؤدي إلى مخرجات أكثر اتساقًا. وعلى الرغم من أن الشركة لم تقدم مجموعة البيانات بوصفها حلًا قائمًا بذاته، فقد قدمتها باعتبارها أساسًا قويًا لمزيد من التدريب والضبط الدقيق.

يُتوقع من الباحثين إجراء تقييمات إضافية مع زيادة استخدام مجموعة البيانات على نطاق أوسع داخل المجتمع.

آثار على أبحاث Open AI

قد يؤثر إصدار مجموعة بيانات بهذا الحجم الكبير والمفتوح على كيفية تعامل الباحثين الأكاديميين والمستقلين مع تدريب النماذج. لطالما كانت إمكانية الوصول إلى بيانات تعليمية مُهيكلة بهذا الحجم الكبير محدودة على المؤسسات التي تتلقى تمويلًا جيدًا.

ومن خلال توفير بديل، قد تدعم QVAC Genesis II التجريب باستخدام نماذج أصغر، وجهود تدريب محلية، والبحث في طرق ذكاء اصطناعي قابل للتفسير.

كما يمكن أن تعمل مجموعة البيانات كمعيار للمشاريع المستقبلية للبيانات الاصطناعية التي تُعطي أولوية لجودة الاستدلال على مجرد حجم البيانات.

المكانة ضمن النظام البيئي الأوسع للذكاء الاصطناعي

تدخل QVAC Genesis II إلى نظام بيئي للذكاء الاصطناعي يتسم بتطور سريع وتزايد تركيز الموارد. يتم تدريب العديد من أكثر النماذج قدرة على مجموعات بيانات مملوكة لا تكون متاحة لإخضاعها للتدقيق أو لإعادة إنتاجها.

توفر مجموعات البيانات المفتوحة مثل Genesis II نقطة مقابلة، مما يتيح الشفافية والتقدم المشترك. كما تطرح أسئلة حول كيفية تَعايش الموارد المفتوحة مع تطوير ذكاء اصطناعي تجاري.

وتُبرز مشاركة شركة متجذرة في التكنولوجيا المالية والأصول الرقمية كيف أن أبحاث الذكاء الاصطناعي تجذب الاهتمام من طيف واسع من الصناعات بعيدًا عن شركات التكنولوجيا التقليدية.

التوفر والخطوات التالية

تم نشر التوثيق التقني الكامل للمجموعة البيانات، بعنوان “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”، على مدونة أبحاث QVAC. يتوفر الوصول إلى مجموعة البيانات والنماذج المرتبطة بها عبر Hugging Face.

أشارت QVAC إلى أنها تخطط لمواصلة تحسين منهجياتها وتوسيع التغطية التعليمية في الإصدارات المستقبلية. ومن المتوقع أن تلعب الملاحظات الواردة من مجتمع الأبحاث دورًا في تشكيل التكرارات اللاحقة.

دفعة مستمرة لبناء أسس مفتوحة

مع Genesis II، تعزز QVAC موقفها بأن بيانات تدريب مفتوحة ومُهيكلة ضرورية لبناء أنظمة ذكاء اصطناعي موثوقة. يعكس الإصدار وجهة نظر مفادها أن الذكاء ينبغي أن يستند إلى الاستدلال والشرح، وليس فقط إلى الارتباطات الإحصائية.

ومع دمج أنظمة الذكاء الاصطناعي بدرجة أكبر في التعليم والعلوم والخدمات المالية، بما في ذلك تطبيقات التكنولوجيا المالية، ستظل جودة بيانات تدريبها مصدر قلق محوريًا.

وحتى الآن، تقف مجموعة بيانات Genesis الموسعة كإسهام ملحوظ في أبحاث Open AI، إذ توفر نطاقًا واسعًا وبنية واضحة وإتاحة على مستوى نادرًا ما يُرى خارج البيئات المملوكة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

إضافة تعليق

لا توجد تعليقات

المواضيع الرائجة
عرض المزيد
#
GateSquareAprilPostingChallenge
132.87K درجة الشعبية
#
MarchNonfarmPayrollsIncoming
214.67K درجة الشعبية
#
IsraelStrikesIranBTCPlunges
21.42K درجة الشعبية
#
CryptoMarketSeesVolatility
106.42K درجة الشعبية
#
OilPricesRise
1.3M درجة الشعبية

Gate Fun الساخن
عرض المزيد

1
TMP
特没谱
القيمة السوقية:$2.23Kعدد الحائزين:1
0.00%
2
BHR
黑马纪元
القيمة السوقية:$2.26Kعدد الحائزين:2
0.07%
3
LELE
乐乐
القيمة السوقية:$2.22Kعدد الحائزين:1
0.00%
4
op
op
القيمة السوقية:$2.23Kعدد الحائزين:1
0.00%
5
火箭
HJ
القيمة السوقية:$2.23Kعدد الحائزين:0
0.00%

تثبيت

خريطة الموقع

تيثر توسع بيانات تدريب الذكاء الاصطناعي المفتوحة بإصدار مجموعة بيانات QVAC Genesis II

توسع كبير في بيانات تدريب Open AI

البناء على إصدار Genesis الأول

تحول في كيفية توليد بيانات التدريب

التركيز على الفهم بدلًا من الطلاقة

إتاحة مفتوحة للباحثين والمطورين

دعم تطوير ذكاء اصطناعي لا مركزي

دور Tether في أبحاث الذكاء الاصطناعي

وجهة نظر القيادة حول الإصدار

النطاق التعليمي وتغطية المجالات

التقييم وأداء النموذج

آثار على أبحاث Open AI

المكانة ضمن النظام البيئي الأوسع للذكاء الاصطناعي

التوفر والخطوات التالية

دفعة مستمرة لبناء أسس مفتوحة

المواضيع الرائجة

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Gate Fun الساخن

TMP

特没谱

BHR

黑马纪元

LELE

乐乐

op

op

火箭

HJ

تثبيت