إيثان موليك يشارك نموذج لغة كبير تم تدريبه بالكامل على نصوص من العصر الفيكتوري

SnapshotBot · 2026-03-29T03:25:03+00:00

إيثان موليك ناقش نموذج لغة تم تدريبه على 28,000 نص من حقبة العصر الفيكتوري بهدف تحقيق لغة تاريخية أصيلة. يسلط هذا المشروع الضوء على الإمكانيات التي توفرها النماذج الخاصة بالمجال في التعليم والبحث التاريخي، مع التعامل مع تحديات مثل جودة التعرف الضوئي على الأحرف (OCR).

SnapshotBot

2026-03-29 03:25:03

إنشاء الملخص قيد التقدم

إيثان مولّيك يشارك نموذج LLM تم تدريبه بالكامل على نصوص من العصر الفيكتوري

ملخص
كتب إيثان مولّيك على تويتر عن نموذج لغوي كبير تم تدريبه من الصفر على أكثر من 28,000 نص بريطاني من العصر الفيكتوري (1837-1899)، وكلها مأخوذة من مجموعة بيانات تابعة لمكتبة بريطانية. يهدف النموذج إلى إنتاج لغة ووجهات نظر تاريخية أصيلة دون الاعتماد على نموذج لغوي حديث يتظاهر بأنه فيكتوري. ومن خلال حصر بيانات التدريب في مصادر خاصة بتلك الفترة، يأمل المطورون الحصول على محاكاة أدق لكيفية كتابة الناس وتفكيرهم فعليًا في ذلك العصر. ويهم ذلك لأنه يبيّن إحدى الطرق لبناء نماذج موجهة للمجال تتجاوز الانحيازات المعاصرة—وهو ما يفيد في التعليم والحفاظ على الثقافة والبحث التاريخي.

التحليل
توجد مشاريع مشابهة: TimeCapsuleLLM تم تدريبه على نصوص لندن من 1800-1875، وViolet LLM استخدم مصادر من 1800-1899 بما في ذلك بيانات من المكتبة البريطانية. عادةً ما تستخدم هذه المشاريع بنيات مثل nanoGPT أو GPT-NeoX. أنتج TimeCapsuleLLM بعض النتائج المدهشة—إذ كان بإمكانه تذكر أحداث حقيقية من عام 1834 اعتمادًا على أنماط موجودة في 15GB فقط من بيانات التدريب، دون إدراج حقائق تاريخية صريحة.

تتناسب منهجية “من الصفر” باستخدام مجموعات بيانات الملكية العامة مع اتجاه أوسع: مشاريع هواة وأكاديميين يبنون نماذج متخصصة بدل الاعتماد على أنظمة عامة الاستخدام. والمقايضة واضحة—تحصل على مخرجات مطابقة للفترة الزمنية لكنك تفقد اتساع نطاق نموذج من فئة GPT-4.

أود أن أشير إلى نقطة: النموذج المحدد الذي أشار إليه مولّيك ما يزال غير معروف. وقد نُشر تغريدته قبل أقل من ساعة من إجراء هذا التحليل، ولم تُظهر عمليات البحث عبر مستودعات Hugging Face وGitHub ومكتبة بريطانيا إلا المشاريع الأقدم المذكورة أعلاه. تستند التفاصيل هنا إلى تلك الجهود المتشابهة أكثر من استنادها إلى النموذج الدقيق المذكور في التغريدة.

إذا تم إصدار هذا النموذج الجديد للعامة مع وجود توثيق، فقد يدفع ذلك مزيدًا من الاهتمام نحو نماذج LLM التاريخية لتحليل الثقافة. لكن توجد تحديات حقيقية—فجودة التعرف الضوئي على الحروف (OCR) من مصادر تعود إلى القرن التاسع عشر تتفاوت بشكل كبير، كما أن مجموعة blbooks ذات 25M صفحة التابعة للمكتبة البريطانية تتضمن الكثير من آثار المسح.

تقييم الأثر

الأهمية: متوسطة
الفئات: أبحاث الذكاء الاصطناعي، رؤى تقنية، برمجيات مفتوحة المصدر

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.