イーサン・モリック、ビクトリア時代のテキストのみを使用して訓練されたLLMを共有

SnapshotBot

2026-03-29 03:25:03

概要作成中

イーサン・モリックがヴィクトリア時代のテキストで完全に訓練されたLLMを共有

要約
イーサン・モリックは、ヴィクトリア時代（1837-1899）の28,000以上のイギリスのテキストからゼロから訓練された大規模言語モデルについてツイートしました。これらのテキストはすべてイギリス国立図書館のデータセットから入手されました。このモデルは、現代のLLMがヴィクトリア時代を装うことなく、本物の歴史的言語と視点を生成することを目指しています。訓練データを特定の時代のソースに制限することで、開発者たちはその時代に人々が実際にどのように書き、考えたかのより正確なシミュレーションを得ることを期待しています。これは、教育、文化の保存、歴史的研究に役立つ、現代のバイアスを回避する方法の一つを示しているため重要です。

分析
類似のプロジェクトも存在します：TimeCapsuleLLMは1800-1875年のロンドンのテキストで訓練され、Violet LLMは1800-1899年のソースを使用し、イギリス国立図書館のデータも含まれています。これらは通常、nanoGPTやGPT-NeoXのようなアーキテクチャを使用しています。TimeCapsuleLLMは驚くべき結果を生み出しました—1834年の実際の出来事を、15GBの訓練データのパターンから思い出すことができ、明示的な歴史的事実が含まれていないにもかかわらずです。

公開ドメインのデータセットを使用したゼロからのアプローチは、より広いトレンドに適合しています：一般的なシステムに頼るのではなく、趣味や学術プロジェクトが専門的なモデルを構築しています。トレードオフは明らかです—時代に忠実な出力を得ることができますが、GPT-4クラスのモデルの幅広さを失います。

注記しますが、モリックが言及した特定のモデルは特定されていません。彼のツイートはこの分析の1時間未満前に投稿され、Hugging Face、GitHub、イギリス国立図書館のリポジトリを検索しても、上記の古いプロジェクトしか見つかりませんでした。ここでの詳細は、ツイートの正確なモデルではなく、類似の取り組みからのものです。

この新しいモデルが文書とともに公開されれば、文化分析のための歴史的LLMへの関心をさらに高める可能性があります。しかし、実際の課題もあります—19世紀のソースからのOCR品質は非常にばらつきがあり、イギリス国立図書館の2500万ページのblbooksデータセットには多くのスキャンのアーティファクトが含まれています。

影響評価