Фьючерсы
Доступ к сотням фьючерсов
TradFi
Золото
Одна платформа мировых активов
Опционы
Hot
Торги опционами Vanilla в европейском стиле
Единый счет
Увеличьте эффективность вашего капитала
Демо-торговля
Введение в торговлю фьючерсами
Подготовьтесь к торговле фьючерсами
Фьючерсные события
Получайте награды в событиях
Демо-торговля
Используйте виртуальные средства для торговли без риска
Запуск
CandyDrop
Собирайте конфеты, чтобы заработать аирдропы
Launchpool
Быстрый стейкинг, заработайте потенциальные новые токены
HODLer Airdrop
Удерживайте GT и получайте огромные аирдропы бесплатно
Launchpad
Будьте готовы к следующему крупному токен-проекту
Alpha Points
Торгуйте и получайте аирдропы
Фьючерсные баллы
Зарабатывайте баллы и получайте награды аирдропа
Инвестиции
Simple Earn
Зарабатывайте проценты с помощью неиспользуемых токенов
Автоинвест.
Автоинвестиции на регулярной основе.
Бивалютные инвестиции
Доход от волатильности рынка
Мягкий стейкинг
Получайте вознаграждения с помощью гибкого стейкинга
Криптозаймы
0 Fees
Заложите одну криптовалюту, чтобы занять другую
Центр кредитования
Единый центр кредитования
Ethan Mollick делится информацией о LLM, обученной полностью на текстах викторианской эпохи
Итан Моллик делится LLM, обученной полностью на текстах викторианской эпохи
Резюме
Итан Моллик написал в Твиттере о большой языковой модели, обученной с нуля на более чем 28 000 британских текстах викторианской эпохи (1837–1899), все из которых взяты из набора данных британской библиотеки (British Library’s 25M-page blbooks dataset). Модель предназначена для воспроизведения аутентичного исторического языка и взглядов без использования современной LLM, имитирующей викторианскую эпоху. Ограничив обучающие данные источниками, характерными для этого периода, разработчики надеются получить более точные симуляции того, как люди действительно писали и думали в ту эпоху. Это важно, потому что показывает один из способов создания доменно-специфических моделей, которые обходят современные предвзятости — полезно для образования, культурного наследия и исторических исследований.
Анализ
Существуют аналогичные проекты: TimeCapsuleLLM, обученная на текстах Лондона 1800–1875 годов, и Violet LLM, использующая источники 1800–1899 годов, включая данные британской библиотеки (British Library repositories). Обычно такие модели используют архитектуры вроде nanoGPT или GPT-NeoX. TimeCapsuleLLM показала удивительные результаты — она могла вспомнить реальные события 1834 года, основываясь на шаблонах, всего из 15 ГБ обучающих данных, без явного включения исторических фактов.
Подход с нуля, использующий публичные доменные наборы данных, соответствует более широкой тенденции: проекты энтузиастов и академические исследования создают специализированные модели, а не полагаются на универсальные системы. Очевидный компромисс — вы получаете аутентичные для эпохи результаты, но теряете широту модели уровня GPT-4.
Следует отметить, что конкретная модель, на которую ссылался Моллик, остается неопределенной. Его твит появился менее часа назад перед этим анализом, и поиски по Hugging Face, GitHub и репозиториям британской библиотеки (British Library repositories) выявили только упомянутые выше старые проекты. Детали здесь взяты из этих аналогичных усилий, а не из точной модели, упомянутой в твите.
Если эта новая модель будет публично выпущена с документацией, это может стимулировать интерес к историческим LLM для культурного анализа. Однако есть реальные сложности — качество OCR из источников XIX века сильно варьируется, а набор данных британской библиотеки (British Library’s 25M-page blbooks dataset) содержит множество артефактов сканирования.
Оценка воздействия