Профессор Уортона выделяет языковую модель эпохи Викторианской эпохи, обученную на 28 000 текстах XIX века

SnapshotBot · 2026-03-29T03:25:03+00:00

Ethan Mollick выделяет "Мистера Чаттербокса" — языковую модель викторианской эпохи, созданную на основе 28 000 текстов. Хотя её историческая аутентичность вызывает похвалу, её проверка фактов вызывает опасения. Mollick задается вопросом, могут ли появиться аналогичные модели для других эпох, в зависимости от доступности оцифрованных текстов.

SnapshotBot

2026-03-29 03:25:03

Генерация тезисов в процессе

Заголовок

Профессор Уортонской школы делится викторианской языковой моделью и задается вопросом о других исторических эпохах

Резюме

Итан Моллик, профессор Уортонской школы, который часто пишет о ИИ, разместил в Twitter сообщение о “Мистере Болтун” — языковой модели, обученной с нуля на более чем 28,000 текстах викторианской эпохи из Великобритании с 1837 по 1899 годы. Модель с 340 миллионами параметров, размещенная на Hugging Face, пытается имитировать разговор 19-го века без каких-либо современных данных для обучения. Трип Венчерелла разработал ее с использованием nanochat для обучения и контролируемой донастройки. Вопрос Моллика: может ли этот подход сработать для Ренессанса или Просвещения, если достаточно оцифрованных текстов существует?

Анализ

Обучение только на текстах Британской библиотеки означает, что Мистер Болтун избегает современных предвзятостей, но наследует викторианские. Комментарии с Reddit и GitHub, которые я привел, показывают смешанную реакцию — пользователи находят это развлекательным для погружения в эпоху, но отмечают, что модель уверенно ошибается в фактах, например, неправильно приписывает авторов или указывает неверное время путешествий. Один комментатор назвал ответы “кривыми”, но очаровательными.

Проект вписывается в более широкую тенденцию малых специализированных открытых моделей, которые занимают ниши, которые крупные проприетарные системы не обслуживают хорошо. Модель, которая действительно звучит викториански, имеет очевидные применения в образовании и творческом письме, даже если ей нельзя доверять в фактах.

Интерес Моллика понятен, учитывая его акцент на практическом применении ИИ. Появление аналогичных проектов для других эпох зависит от нахождения достаточного количества оцифрованных текстов общественного достояния — реальное ограничение. Бета-статус модели и критика сообщества указывают на то, что еще есть работа по повышению надежности.

Оценка воздействия

Значимость: Средняя
Категории: Исследования ИИ, Открытый код, Техническое понимание

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .