Ethan Mollick делится информацией о LLM, обученной полностью на текстах викторианской эпохи

robot
Генерация тезисов в процессе

Итан Моллик делится LLM, обученной полностью на текстах викторианской эпохи

Резюме
Итан Моллик написал в Твиттере о большой языковой модели, обученной с нуля на более чем 28 000 британских текстах викторианской эпохи (1837–1899), все из которых взяты из набора данных британской библиотеки (British Library’s 25M-page blbooks dataset). Модель предназначена для воспроизведения аутентичного исторического языка и взглядов без использования современной LLM, имитирующей викторианскую эпоху. Ограничив обучающие данные источниками, характерными для этого периода, разработчики надеются получить более точные симуляции того, как люди действительно писали и думали в ту эпоху. Это важно, потому что показывает один из способов создания доменно-специфических моделей, которые обходят современные предвзятости — полезно для образования, культурного наследия и исторических исследований.

Анализ
Существуют аналогичные проекты: TimeCapsuleLLM, обученная на текстах Лондона 1800–1875 годов, и Violet LLM, использующая источники 1800–1899 годов, включая данные британской библиотеки (British Library repositories). Обычно такие модели используют архитектуры вроде nanoGPT или GPT-NeoX. TimeCapsuleLLM показала удивительные результаты — она могла вспомнить реальные события 1834 года, основываясь на шаблонах, всего из 15 ГБ обучающих данных, без явного включения исторических фактов.

Подход с нуля, использующий публичные доменные наборы данных, соответствует более широкой тенденции: проекты энтузиастов и академические исследования создают специализированные модели, а не полагаются на универсальные системы. Очевидный компромисс — вы получаете аутентичные для эпохи результаты, но теряете широту модели уровня GPT-4.

Следует отметить, что конкретная модель, на которую ссылался Моллик, остается неопределенной. Его твит появился менее часа назад перед этим анализом, и поиски по Hugging Face, GitHub и репозиториям британской библиотеки (British Library repositories) выявили только упомянутые выше старые проекты. Детали здесь взяты из этих аналогичных усилий, а не из точной модели, упомянутой в твите.

Если эта новая модель будет публично выпущена с документацией, это может стимулировать интерес к историческим LLM для культурного анализа. Однако есть реальные сложности — качество OCR из источников XIX века сильно варьируется, а набор данных британской библиотеки (British Library’s 25M-page blbooks dataset) содержит множество артефактов сканирования.

Оценка воздействия

  • Значимость: средняя
  • Категории: исследования ИИ, техническая информация, open source
Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Горячее на Gate Fun

    Подробнее
  • РК:$2.27KДержатели:2
    0.00%
  • РК:$2.37KДержатели:2
    1.04%
  • РК:$2.24KДержатели:1
    0.00%
  • РК:$2.24KДержатели:1
    0.00%
  • РК:$2.25KДержатели:1
    0.00%
  • Закрепить