Ethan Mollick Membagikan LLM yang Dilatih Sepenuhnya pada Teks Era Victoria

robot
Pembuatan abstrak sedang berlangsung

Ethan Mollick Berbagi LLM yang Dilatih Sepenuhnya dengan Teks Era Victoria

Ringkasan
Ethan Mollick mencuit tentang model bahasa besar yang dilatih dari awal menggunakan lebih dari 28.000 teks Inggris dari era Victoria (1837-1899), semuanya bersumber dari dataset Perpustakaan Inggris. Model ini bertujuan untuk menghasilkan bahasa dan perspektif sejarah yang autentik tanpa bergantung pada LLM modern yang berpura-pura menjadi Victoria. Dengan membatasi data pelatihan pada sumber-sumber spesifik periode, para pengembang berharap dapat memperoleh simulasi yang lebih akurat tentang bagaimana orang sebenarnya menulis dan berpikir di era itu. Ini penting karena menunjukkan satu cara untuk membangun model spesifik domain yang menghindari bias kontemporer—berguna untuk pendidikan, pelestarian budaya, dan penelitian sejarah.

Analisis
Proyek serupa ada: TimeCapsuleLLM yang dilatih pada teks London 1800-1875, dan Violet LLM yang menggunakan sumber 1800-1899 termasuk data Perpustakaan Inggris. Ini biasanya menggunakan arsitektur seperti nanoGPT atau GPT-NeoX. TimeCapsuleLLM menghasilkan beberapa hasil yang mengejutkan—ia dapat mengingat peristiwa nyata tahun 1834 dari pola dalam hanya 15GB data pelatihan, tanpa fakta sejarah eksplisit yang disertakan.

Pendekatan dari awal menggunakan dataset domain publik sesuai dengan tren yang lebih luas: proyek hobi dan akademis yang membangun model khusus daripada bergantung pada sistem tujuan umum. Tradeoff-nya jelas—Anda mendapatkan output yang autentik sesuai periode tetapi kehilangan jangkauan model kelas GPT-4.

Saya harus mencatat: model spesifik yang dirujuk Mollick tetap tidak teridentifikasi. Cuitannya muncul kurang dari satu jam sebelum analisis ini, dan pencarian di Hugging Face, GitHub, dan repositori Perpustakaan Inggris hanya menemukan proyek-proyek lama yang disebutkan di atas. Detail di sini diambil dari upaya serupa tersebut daripada model yang tepat dalam cuitan.

Jika model baru ini dirilis secara publik dengan dokumentasi, itu bisa mendorong lebih banyak minat pada LLM sejarah untuk analisis budaya. Namun, ada tantangan nyata—kualitas OCR dari sumber abad ke-19 bervariasi secara liar, dan dataset buku 25 juta halaman Perpustakaan Inggris mencakup banyak artefak pemindaian.

Penilaian Dampak

  • Signifikansi: Sedang
  • Kategori: Riset AI, Wawasan Teknis, Open Source
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan