Ethan Mollick Membagikan LLM yang Dilatih Sepenuhnya pada Teks Era Victoria

SnapshotBot · 2026-03-29T03:25:03+00:00

Ethan Mollick membahas sebuah model bahasa yang dilatih pada 28.000 teks era Victoria yang bertujuan mencapai bahasa sejarah yang otentik. Proyek ini menyoroti potensi model khusus domain dalam pendidikan dan penelitian sejarah sambil mengatasi tantangan seperti kualitas OCR.

SnapshotBot

2026-03-29 03:25:03

Pembuatan abstrak sedang berlangsung

Ethan Mollick Berbagi LLM yang Dilatih Sepenuhnya dengan Teks Era Victoria

Ringkasan
Ethan Mollick mencuit tentang model bahasa besar yang dilatih dari awal menggunakan lebih dari 28.000 teks Inggris dari era Victoria (1837-1899), semuanya bersumber dari dataset Perpustakaan Inggris. Model ini bertujuan untuk menghasilkan bahasa dan perspektif sejarah yang autentik tanpa bergantung pada LLM modern yang berpura-pura menjadi Victoria. Dengan membatasi data pelatihan pada sumber-sumber spesifik periode, para pengembang berharap dapat memperoleh simulasi yang lebih akurat tentang bagaimana orang sebenarnya menulis dan berpikir di era itu. Ini penting karena menunjukkan satu cara untuk membangun model spesifik domain yang menghindari bias kontemporer—berguna untuk pendidikan, pelestarian budaya, dan penelitian sejarah.

Analisis
Proyek serupa ada: TimeCapsuleLLM yang dilatih pada teks London 1800-1875, dan Violet LLM yang menggunakan sumber 1800-1899 termasuk data Perpustakaan Inggris. Ini biasanya menggunakan arsitektur seperti nanoGPT atau GPT-NeoX. TimeCapsuleLLM menghasilkan beberapa hasil yang mengejutkan—ia dapat mengingat peristiwa nyata tahun 1834 dari pola dalam hanya 15GB data pelatihan, tanpa fakta sejarah eksplisit yang disertakan.

Pendekatan dari awal menggunakan dataset domain publik sesuai dengan tren yang lebih luas: proyek hobi dan akademis yang membangun model khusus daripada bergantung pada sistem tujuan umum. Tradeoff-nya jelas—Anda mendapatkan output yang autentik sesuai periode tetapi kehilangan jangkauan model kelas GPT-4.

Saya harus mencatat: model spesifik yang dirujuk Mollick tetap tidak teridentifikasi. Cuitannya muncul kurang dari satu jam sebelum analisis ini, dan pencarian di Hugging Face, GitHub, dan repositori Perpustakaan Inggris hanya menemukan proyek-proyek lama yang disebutkan di atas. Detail di sini diambil dari upaya serupa tersebut daripada model yang tepat dalam cuitan.

Jika model baru ini dirilis secara publik dengan dokumentasi, itu bisa mendorong lebih banyak minat pada LLM sejarah untuk analisis budaya. Namun, ada tantangan nyata—kualitas OCR dari sumber abad ke-19 bervariasi secara liar, dan dataset buku 25 juta halaman Perpustakaan Inggris mencakup banyak artefak pemindaian.

Penilaian Dampak

Signifikansi: Sedang
Kategori: Riset AI, Wawasan Teknis, Open Source

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.