العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
منصة الإطلاق
كن من الأوائل في الانضمام إلى مشروع التوكن الكبير القادم
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
تيثر توسع بيانات تدريب الذكاء الاصطناعي المفتوحة بإصدار مجموعة بيانات QVAC Genesis II
اكتشف أهم أخبار الفينتوك والفعاليات!
اشترك في النشرة الإخبارية لـ FinTech Weekly
يقرأها التنفيذيون في JP Morgan وCoinbase وBlackrock وKlarna وغيرهم
توسع كبير في بيانات تدريب الذكاء الاصطناعي المفتوحة
أصدرت Tether Data إصدارًا جديدًا من مجموعة بياناتها التعليمية الاصطناعية للذكاء الاصطناعي، مما زاد بشكل كبير من حجم ونطاق المواد التدريبية المفتوحة المتاحة للباحثين في جميع أنحاء العالم. أعلنت وحدة أبحاث الذكاء الاصطناعي بالشركة، QVAC، أن الإصدار الجديد، المسمى QVAC Genesis II، يضيف 107 مليار توكن إلى مجموعة بياناتها السابقة، ليصل الحجم الإجمالي إلى 148 مليار توكن.
تعتبر مجموعة البيانات الموسعة الآن أكبر مورد تعليمي اصطناعي متاح للجمهور مصمم خصيصًا للتدريب المسبق على الذكاء الاصطناعي. إنها تغطي 19 مجالًا أكاديميًا وتهدف إلى تحسين كيفية تعلم النماذج للتفكير، والتفسير، واتخاذ القرارات بدلاً من التعرف على الأنماط السطحية.
تضع هذه الإعلان الإصدار كخطوة نحو تطوير ذكاء اصطناعي أكثر شفافية وقابلية للوصول، في وقت لا تزال فيه العديد من مجموعات البيانات التدريبية المتقدمة محجوبة داخل أنظمة ملكية.
البناء على الإصدار الأول من جينيسيس
يبني QVAC Genesis II على العمل الذي تم تقديمه لأول مرة في Genesis I، الذي ركز على إنشاء مجموعة بيانات اصطناعية مركزة على التعليم تغطي العلوم الأساسية، والتكنولوجيا، والهندسة، وموضوعات الرياضيات. أسس ذلك الإصدار السابق إطارًا لتوليد أسئلة تدريب منظمة تهدف إلى تحسين دقة التفكير.
يوسع الإصدار الجديد التغطية لتشمل عشرة مجالات إضافية، بما في ذلك الكيمياء، وعلوم الكمبيوتر، والإحصاء، والتعلم الآلي، والفلك، والجغرافيا، والاقتصاد القياسي، والهندسة الكهربائية. كما يعيد زيارة محتوى الفيزياء على مستوى الكلية، مع إعادة توليده باستخدام منهجية محدثة تهدف إلى تحسين الوضوح المفهومي.
تشكل الإصدارات معًا ما تصفه QVAC بأنه أكبر مجموعة بيانات تعليمية اصطناعية تم تقديمها للجمهور حتى الآن. المجموعة مخصصة للاستخدام في التدريب المسبق على نماذج اللغة الكبيرة وأنظمة الذكاء الاصطناعي الأخرى التي تتطلب مواد أكاديمية منظمة.
تحول في كيفية توليد بيانات التدريب
في جوهر Genesis II توجد طريقة جديدة لتوليد البيانات تُعرف باسم التفكير على مستوى الخيارات. تختلف هذه الطريقة عن العديد من التقنيات الحالية للبيانات الاصطناعية من خلال التركيز ليس فقط على الإجابات الخاطئة، ولكن أيضًا على الصحيحة.
بدلاً من اعتبار الرد الصحيح نهاية العملية، تحلل الطريقة كل خيار إجابة في سؤال متعدد الخيارات. يتم تحليل الخيارات الصحيحة لتعزيز سبب كونها صحيحة، بينما يتم فحص الخيارات الخاطئة لمعالجة المفاهيم الخاطئة الشائعة. تسمح هذه البنية للنماذج بتعلم التفكير السببي ومنطق اتخاذ القرار بدلاً من مجرد الربط بين الأسئلة والنتائج.
تكمل هذه الطريقة منهجية تحليل الفشل المقدمة في Genesis I، التي ركزت على استخراج القيمة من أخطاء النموذج. تشكل الطريقتان معًا خط أنابيب حيث يتم تصميم كل سؤال مُولد للمساهمة في قيمة تعليمية.
تشير التقييمات المستقلة التي استشهدت بها QVAC إلى أن النماذج المدربة على بيانات Genesis II تظهر دقة تفكير أعلى وتنتج إجابات أوضح من تلك المدربة على مجموعات البيانات الاصطناعية السابقة.
التركيز على الفهم بدلاً من الطلاقة
يعتمد الكثير من نظام تدريب الذكاء الاصطناعي الحالي على تجميع كميات كبيرة جدًا من النصوص، غالبًا ما يتم استخراجها من مصادر عامة، لتحسين الطلاقة اللغوية. يختلف الهدف المعلن لـ QVAC في التركيز. تم تصميم مجموعات بيانات Genesis لتعليم النماذج كيفية التفكير في المشكلات وشرح النتائج بطريقة واضحة.
أشارت قيادة الشركة إلى أن الهدف هو الانتقال إلى ما هو أبعد من تدريب الأنظمة التي تتنبأ بتسلسلات النص المحتملة، نحو نماذج تظهر فهمًا للمفاهيم الأساسية. تعطي تصميم مجموعة البيانات الأولوية للوضوح، والسببية، والمنطق، بهدف تقليل الغموض في مخرجات النموذج.
يتماشى هذا النهج مع المناقشات الأوسع في أبحاث الذكاء الاصطناعي حول الموثوقية وقابلية التفسير، خاصةً مع استخدام أنظمة الذكاء الاصطناعي في التعليم، والعلوم، وسياقات دعم القرار.
الوصول المفتوح للباحثين والمطورين
كما هو الحال مع مجموعة بيانات Genesis الأصلية، يتم إصدار QVAC Genesis II بشكل مفتوح. المجموعة متاحة بموجب ترخيص المشاع الإبداعي (Creative Commons) 4.0، مما يسمح للباحثين، والمؤسسات الأكاديمية، والمطورين المستقلين باستخدام البيانات ودراستها خارج السياقات التجارية.
تستضيف Hugging Face مجموعة البيانات والنماذج المرتبطة بها، جنبًا إلى جنب مع ورقة تقنية مفصلة توضح منهجية التوليد ونتائج التقييم. يهدف هذا التوزيع المفتوح إلى خفض الحواجز أمام الباحثين الذين ليس لديهم وصول إلى مجموعات بيانات ملكية كبيرة.
من خلال الحفاظ على ترخيص غير تجاري، تهدف QVAC إلى دعم الأبحاث الأكاديمية والمجتمعية مع الحد من الاستغلال التجاري المباشر.
دعم تطوير الذكاء الاصطناعي اللامركزي
يتناسب الإصدار أيضًا مع استراتيجية أوسع تتبعها Tether Data لتشجيع تطوير الذكاء الاصطناعي اللامركزي. أكدت الشركة على أن بيانات التدريب عالية الجودة لا ينبغي أن تقتصر على المنظمات التي لديها وصول إلى بنية تحتية سحابية مركزية.
من خلال جعل مجموعات البيانات المنظمة على نطاق واسع متاحة للجمهور، تسعى QVAC إلى تمكين التدريب المحلي، والتجريب، ونشر نماذج الذكاء الاصطناعي. يهدف هذا النهج إلى دعم بيئات البحث حيث قد تكون موارد الحوسبة محدودة ولكن المساهمات الفكرية تبقى كبيرة.
يعكس التركيز على اللامركزية الاهتمام المتزايد في تقليل الاعتماد على عدد قليل من منصات الذكاء الاصطناعي المهيمنة وتعزيز نظام بحث أكثر توزيعًا.
دور Tether في أبحاث الذكاء الاصطناعي
تعمل QVAC كقسم أبحاث الذكاء الاصطناعي في Tether Data. بينما تُعرف Tether على نطاق واسع بدورها في الأصول الرقمية والعملات المستقرة، فقد وسعت الشركة أنشطتها في أبحاث البيانات والذكاء الاصطناعي في السنوات الأخيرة.
من خلال QVAC، ركزت Tether Data على بناء البنية التحتية والموارد التي تدعم البحث المفتوح. تمثل مجموعات بيانات Genesis واحدة من أكثر نواتج ذلك الجهد وضوحًا، مما يضع الشركة في قلب المناقشات حول تطوير الذكاء الاصطناعي المفتوح وبيانات التدريب المركزة على التعليم.
يعكس هذا العمل أيضًا التداخل المتزايد بين شركات الفينتوك وأبحاث الذكاء الاصطناعي المتقدمة، حيث تستثمر شركات التكنولوجيا المالية بشكل متزايد في علم البيانات وقدرات التعلم الآلي.
وجهة نظر القيادة بشأن الإصدار
طرحت قيادة الشركة إصدار Genesis II كخطوة بعيدًا عن نهج التدريب الذي يعطي الأولوية للحجم فقط. التركيز، وفقًا لتصريحات فريق التنفيذيين في Tether، هو على تعليم أنظمة الذكاء الاصطناعي كيفية التفكير وشرحها بدلاً من مجرد توليد استجابات سلسة.
أكد باولو أردوينو، الرئيس التنفيذي لشركة Tether، أن الذكاء الاصطناعي الموثوق يجب أن يكون قائمًا على فهم سبب كون الإجابات صحيحة. وقد أشار إلى أن جعل مجموعة البيانات متاحة بشكل علني يعكس الاعتقاد بأن الذكاء الاصطناعي الأقوى والأكثر قابلية للتفسير يعود بالنفع على المجتمع ككل.
تتردد هذه الآراء في مخاوف الباحثين بشأن قيود النماذج التي تم تدريبها بشكل أساسي على نصوص غير منظمة.
نطاق تعليمي وتغطية المجالات
تغطي مجموعات بيانات Genesis I وII مجتمعة 19 مجالًا، مع محتوى مصمم لمستويات التعليم الثانوي والعالي. تتراوح الموضوعات من الرياضيات والفيزياء الأساسية إلى مجالات تطبيقية مثل الاقتصاد القياسي والتعلم الآلي.
تتضمن كل مجال أسئلة منظمة، وتفسيرات، ومسارات تفكير تهدف إلى محاكاة كيفية تدريس المفاهيم وتقييمها في الإعدادات التعليمية الرسمية. تم تصميم هذا لدعم المهام التدريبية المسبقة التي تتطلب اتساقًا منطقيًا وعمقًا مفهوميًا.
من خلال إعادة توليد وتوسيع المحتوى باستخدام أساليب محسنة، تهدف QVAC إلى تحسين كيفية تمثيل المواد التعليمية في مجموعات البيانات الاصطناعية.
التقييم وأداء النموذج
وفقًا للتقييمات الداخلية والمستقلة التي استشهدت بها QVAC، تظهر النماذج المدربة على بيانات Genesis II أداءً محسّنًا في المهام التي تتطلب التفكير. تشمل هذه المهام الإجابة على أسئلة منظمة، وشرح النتائج، وتجنب الاستجابات الغامضة أو المتناقضة.
تشير نتائج التقييم إلى أن الجمع بين تحليل الفشل والتفكير على مستوى الخيارات يؤدي إلى مخرجات أكثر اتساقًا. بينما لم تضع الشركة مجموعة البيانات كحل مستقل، فقد قدمتها كأساس قوي لمزيد من التدريب والتعديل.
من المتوقع أن يقوم الباحثون بإجراء تقييمات إضافية مع استخدام مجموعة البيانات بشكل أوسع في المجتمع.
الآثار على أبحاث الذكاء الاصطناعي المفتوح
قد يؤثر إصدار مجموعة بيانات كبيرة ومفتوحة على كيفية اقتراب الباحثين الأكاديميين والمستقلين من تدريب النماذج. كان الوصول إلى بيانات تعليمية منظمة بهذا الحجم تقليديًا محدودًا على المنظمات ذات التمويل الجيد.
من خلال توفير بديل، يمكن أن تدعم QVAC Genesis II التجريب مع نماذج أصغر، وجهود التدريب المحلية، والبحث في طرق الذكاء الاصطناعي القابل للتفسير.
يمكن أن تعمل مجموعة البيانات أيضًا كنقطة مرجعية لمشاريع البيانات الاصطناعية المستقبلية التي تعطي الأولوية لجودة التفكير على الحجم الخالص.
الموقع ضمن النظام البيئي الأوسع للذكاء الاصطناعي
يدخل QVAC Genesis II نظام ذكاء اصطناعي يتميز بالتطور السريع وزيادة تركيز الموارد. يتم تدريب العديد من النماذج الأكثر قدرة على مجموعات بيانات ملكية غير متاحة للفحص أو النسخ.
تقدم مجموعات البيانات المفتوحة مثل Genesis II نقطة مضادة، مما يمكّن الشفافية والتقدم المشترك. كما تثير أسئلة حول كيفية تعايش الموارد المفتوحة مع تطوير الذكاء الاصطناعي التجاري.
يسلط انخراط شركة متجذرة في الفينتوك والأصول الرقمية الضوء على كيفية جذب أبحاث الذكاء الاصطناعي اهتمامًا من مجموعة واسعة من الصناعات بخلاف شركات التكنولوجيا التقليدية.
التوافر والخطوات التالية
تم نشر الوثائق التقنية الكاملة لمجموعة البيانات، بعنوان “QVAC Genesis II: توسيع أكبر وأعلى جودة لمجموعة بيانات تعليمية اصطناعية متعددة المجالات للتدريب المسبق”، على مدونة أبحاث QVAC. الوصول إلى مجموعة البيانات والنماذج ذات الصلة متاح من خلال Hugging Face.
أشارت QVAC إلى أنها تخطط لمواصلة تحسين أساليبها وتوسيع التغطية التعليمية في الإصدارات المستقبلية. من المتوقع أن تلعب الملاحظات من مجتمع البحث دورًا في تشكيل التكرارات التالية.
دفع مستمر نحو أسس مفتوحة
مع Genesis II، تعزز QVAC موقفها بأن بيانات التدريب المفتوحة والمنظمة ضرورية لبناء أنظمة ذكاء اصطناعي موثوقة. يعكس الإصدار وجهة نظر مفادها أن الذكاء يجب أن يكون قائمًا على التفكير والتفسير، وليس مجرد ارتباطات إحصائية.
مع تزايد دمج أنظمة الذكاء الاصطناعي في التعليم، والعلوم، والخدمات المالية، بما في ذلك تطبيقات الفينتوك، ستظل جودة بيانات تدريبها مصدر قلق مركزي.
في الوقت الحالي، تعتبر مجموعة بيانات Genesis الموسعة مساهمة بارزة في أبحاث الذكاء الاصطناعي المفتوح، حيث تقدم الحجم، والبنية، والوصول على مستوى نادرًا ما يُرى خارج البيئات الملكية.