沃顿教授强调以28,000篇19世纪文本为训练数据的维多利亚时代语言模型

robot
摘要生成中

Headline

沃顿教授分享维多利亚语言模型,思考其他历史时代

Summary

以太·莫利克(Ethan Mollick),一位经常撰写关于人工智能的沃顿教授,在推特上提到“聊天先生”(Mr. Chatterbox)——一个从零开始训练的语言模型,基于1837年至1899年间的28,000多篇维多利亚时代英国文本。这个拥有3.4亿参数的模型托管在Hugging Face上,试图模拟19世纪的对话,而没有任何现代训练数据。特里普·文特雷拉(Trip Venturella)使用nanochat进行训练和监督微调。莫利克的问题是:如果有足够的数字化文本,这种方法是否可以用于文艺复兴或启蒙时代?

Analysis

仅在英国图书馆的文本上训练意味着聊天先生避免了现代偏见,但继承了维多利亚的偏见。我提取的Reddit和GitHub评论显示反应不一——用户发现它在历史沉浸方面很有趣,但注意到它自信地误报事实,例如错误归属作者或陈述错误的旅行时间。一位评论者称这些回应“古怪但迷人”。

该项目符合一个更广泛的模式,即小型专业开源模型在大规模专有系统服务不佳的领域中开辟利基市场。一个真正听起来像维多利亚时代的模型在教育和创意写作中有明显的应用,即使你不能信任它的事实。

考虑到莫利克对实用人工智能采用的关注,他的兴趣是合乎逻辑的。是否会出现类似项目来针对其他时代,取决于找到足够的数字化公共领域文本——这是一个真实的限制。该模型的测试状态和社区批评表明,在可靠性方面仍有待改进的工作。

Impact Assessment

  • Significance: 中等
  • Categories: 人工智能研究,开源,技术洞察
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论