العقود الآجلة
وصول إلى مئات العقود الدائمة
TradFi
الذهب
منصّة واحدة للأصول التقليدية العالمية
الخیارات المتاحة
Hot
تداول خيارات الفانيلا على الطريقة الأوروبية
الحساب الموحد
زيادة كفاءة رأس المال إلى أقصى حد
التداول التجريبي
مقدمة حول تداول العقود الآجلة
استعد لتداول العقود الآجلة
أحداث مستقبلية
"انضم إلى الفعاليات لكسب المكافآت "
التداول التجريبي
استخدم الأموال الافتراضية لتجربة التداول بدون مخاطر
إطلاق
CandyDrop
اجمع الحلوى لتحصل على توزيعات مجانية.
منصة الإطلاق
-التخزين السريع، واربح رموزًا مميزة جديدة محتملة!
HODLer Airdrop
احتفظ بـ GT واحصل على توزيعات مجانية ضخمة مجانًا
منصة الإطلاق
كن من الأوائل في الانضمام إلى مشروع التوكن الكبير القادم
نقاط Alpha
تداول الأصول على السلسلة واكسب التوزيعات المجانية
نقاط العقود الآجلة
اكسب نقاط العقود الآجلة وطالب بمكافآت التوزيع المجاني
إيثان موليك يشارك نموذج لغة كبير تم تدريبه بالكامل على نصوص من العصر الفيكتوري
إيثان مولّيك يشارك نموذج LLM تم تدريبه بالكامل على نصوص من العصر الفيكتوري
ملخص
كتب إيثان مولّيك على تويتر عن نموذج لغوي كبير تم تدريبه من الصفر على أكثر من 28,000 نص بريطاني من العصر الفيكتوري (1837-1899)، وكلها مأخوذة من مجموعة بيانات تابعة لمكتبة بريطانية. يهدف النموذج إلى إنتاج لغة ووجهات نظر تاريخية أصيلة دون الاعتماد على نموذج لغوي حديث يتظاهر بأنه فيكتوري. ومن خلال حصر بيانات التدريب في مصادر خاصة بتلك الفترة، يأمل المطورون الحصول على محاكاة أدق لكيفية كتابة الناس وتفكيرهم فعليًا في ذلك العصر. ويهم ذلك لأنه يبيّن إحدى الطرق لبناء نماذج موجهة للمجال تتجاوز الانحيازات المعاصرة—وهو ما يفيد في التعليم والحفاظ على الثقافة والبحث التاريخي.
التحليل
توجد مشاريع مشابهة: TimeCapsuleLLM تم تدريبه على نصوص لندن من 1800-1875، وViolet LLM استخدم مصادر من 1800-1899 بما في ذلك بيانات من المكتبة البريطانية. عادةً ما تستخدم هذه المشاريع بنيات مثل nanoGPT أو GPT-NeoX. أنتج TimeCapsuleLLM بعض النتائج المدهشة—إذ كان بإمكانه تذكر أحداث حقيقية من عام 1834 اعتمادًا على أنماط موجودة في 15GB فقط من بيانات التدريب، دون إدراج حقائق تاريخية صريحة.
تتناسب منهجية “من الصفر” باستخدام مجموعات بيانات الملكية العامة مع اتجاه أوسع: مشاريع هواة وأكاديميين يبنون نماذج متخصصة بدل الاعتماد على أنظمة عامة الاستخدام. والمقايضة واضحة—تحصل على مخرجات مطابقة للفترة الزمنية لكنك تفقد اتساع نطاق نموذج من فئة GPT-4.
أود أن أشير إلى نقطة: النموذج المحدد الذي أشار إليه مولّيك ما يزال غير معروف. وقد نُشر تغريدته قبل أقل من ساعة من إجراء هذا التحليل، ولم تُظهر عمليات البحث عبر مستودعات Hugging Face وGitHub ومكتبة بريطانيا إلا المشاريع الأقدم المذكورة أعلاه. تستند التفاصيل هنا إلى تلك الجهود المتشابهة أكثر من استنادها إلى النموذج الدقيق المذكور في التغريدة.
إذا تم إصدار هذا النموذج الجديد للعامة مع وجود توثيق، فقد يدفع ذلك مزيدًا من الاهتمام نحو نماذج LLM التاريخية لتحليل الثقافة. لكن توجد تحديات حقيقية—فجودة التعرف الضوئي على الحروف (OCR) من مصادر تعود إلى القرن التاسع عشر تتفاوت بشكل كبير، كما أن مجموعة blbooks ذات 25M صفحة التابعة للمكتبة البريطانية تتضمن الكثير من آثار المسح.
تقييم الأثر