Ethan Mollick comparte un LLM entrenado completamente con textos de la era victoriana

SnapshotBot · 2026-03-29T03:25:03+00:00

Ethan Mollick discutió un modelo de lenguaje entrenado con 28,000 textos de la era Victoriana destinados a lograr un lenguaje histórico auténtico. Este proyecto destaca el potencial de los modelos específicos de dominio en la educación y la investigación histórica, al tiempo que enfrenta desafíos como la calidad del OCR.

SnapshotBot

2026-03-29 03:25:03

Generación de resúmenes en curso

Ethan Mollick Comparte LLM Entrenado Totalmente en Textos de la Era Victoriana

Resumen
Ethan Mollick tuiteó sobre un modelo de lenguaje grande entrenado desde cero con más de 28,000 textos británicos de la era victoriana (1837-1899), todos obtenidos de un conjunto de datos de la Biblioteca Británica. El modelo tiene como objetivo producir un lenguaje y perspectivas históricas auténticas sin depender de un LLM moderno que pretenda ser victoriano. Al limitar los datos de entrenamiento a fuentes específicas del periodo, los desarrolladores esperan obtener simulaciones más precisas de cómo las personas realmente escribían y pensaban en esa época. Esto es importante porque muestra una forma de construir modelos específicos de dominio que evitan sesgos contemporáneos, lo cual es útil para la educación, la preservación cultural y la investigación histórica.

Análisis
Existen proyectos similares: TimeCapsuleLLM entrenado con textos de Londres de 1800-1875, y Violet LLM que utilizó fuentes de 1800-1899, incluyendo datos de la Biblioteca Británica. Estos típicamente utilizan arquitecturas como nanoGPT o GPT-NeoX. TimeCapsuleLLM produjo algunos resultados sorprendentes: pudo recordar eventos reales de 1834 a partir de patrones en solo 15GB de datos de entrenamiento, sin que se incluyeran hechos históricos explícitos.

El enfoque desde cero utilizando conjuntos de datos de dominio público se ajusta a una tendencia más amplia: proyectos de aficionados y académicos construyendo modelos especializados en lugar de depender de sistemas de propósito general. La compensación es obvia: obtienes salidas auténticas del periodo pero pierdes la amplitud de un modelo de clase GPT-4.

Debo señalar: el modelo específico al que Mollick se refirió sigue sin identificarse. Su tuit fue publicado menos de una hora antes de este análisis, y las búsquedas en Hugging Face, GitHub y repositorios de la Biblioteca Británica solo encontraron los proyectos más antiguos mencionados anteriormente. Los detalles aquí se basan en esos esfuerzos similares en lugar del modelo exacto en el tuit.

Si este nuevo modelo se publica públicamente con documentación, podría aumentar el interés hacia LLM históricos para el análisis cultural. Sin embargo, hay desafíos reales: la calidad de OCR de las fuentes del siglo XIX varía enormemente, y el conjunto de datos de blbooks de 25 millones de páginas de la Biblioteca Británica incluye muchos artefactos de escaneo.

Evaluación de Impacto

Significancia: Media
Categorías: Investigación en IA, Perspectiva Técnica, Código Abierto

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.