沃顿教授强调以28,000篇19世纪文本为训练数据的维多利亚时代语言模型

快照自动机 · 2026-03-29T03:25:03+00:00

伊桑·莫利克（Ethan Mollick）强调了“喋喋不休先生”（Mr. Chatterbox），这是一款由28,000篇文本构建的维多利亚时代语言模型。虽然其历史真实性受到赞扬，但其事实核查引发了担忧。莫利克质疑，是否有可能为其他时代开发出类似的模型，前提是数字化文本的可用性。

快照自动机

2026-03-29 03:25:03

摘要生成中

Headline

沃顿教授分享维多利亚语言模型，思考其他历史时代

Summary

以太·莫利克（Ethan Mollick），一位经常撰写关于人工智能的沃顿教授，在推特上提到“聊天先生”（Mr. Chatterbox）——一个从零开始训练的语言模型，基于1837年至1899年间的28,000多篇维多利亚时代英国文本。这个拥有3.4亿参数的模型托管在Hugging Face上，试图模拟19世纪的对话，而没有任何现代训练数据。特里普·文特雷拉（Trip Venturella）使用nanochat进行训练和监督微调。莫利克的问题是：如果有足够的数字化文本，这种方法是否可以用于文艺复兴或启蒙时代？

Analysis

仅在英国图书馆的文本上训练意味着聊天先生避免了现代偏见，但继承了维多利亚的偏见。我提取的Reddit和GitHub评论显示反应不一——用户发现它在历史沉浸方面很有趣，但注意到它自信地误报事实，例如错误归属作者或陈述错误的旅行时间。一位评论者称这些回应“古怪但迷人”。

该项目符合一个更广泛的模式，即小型专业开源模型在大规模专有系统服务不佳的领域中开辟利基市场。一个真正听起来像维多利亚时代的模型在教育和创意写作中有明显的应用，即使你不能信任它的事实。

考虑到莫利克对实用人工智能采用的关注，他的兴趣是合乎逻辑的。是否会出现类似项目来针对其他时代，取决于找到足够的数字化公共领域文本——这是一个真实的限制。该模型的测试状态和社区批评表明，在可靠性方面仍有待改进的工作。

Impact Assessment

Significance: 中等
Categories: 人工智能研究，开源，技术洞察

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

请输入评论内容

暂无评论

热门话题
查看更多
#
成长值抽奖赢金条
104.9万热度
#
震荡行情交易策略
3.56万热度
#
比特币震荡走弱
10108.57万热度
#
美联储加息预期再起
86.42万热度
#
特朗普称打击暂缓期延长10天
709.29万热度

热门 Gate Fun
查看更多

1
Cartoon
Cartooncoin
市值:$2291.67持有人数:2
0.09%
2
紫薇币
ZW
市值:$2258.62持有人数:1
0.00%
3
get
get
市值:$2293.7持有人数:2
0.07%
4
ZQCJ
重拳出击
市值:$2292.22持有人数:2
0.10%
5
PERPY
PERPY
市值:$0.1持有人数:1
0.00%

沃顿教授强调以28,000篇19世纪文本为训练数据的维多利亚时代语言模型

Headline

Summary

Analysis

Impact Assessment

热门话题

成长值抽奖赢金条

震荡行情交易策略

比特币震荡走弱

美联储加息预期再起

特朗普称打击暂缓期延长10天

热门 Gate Fun

Cartoon

Cartooncoin

紫薇币

ZW

get

get

ZQCJ

重拳出击

PERPY

PERPY

置顶