Tether 扩展 Open AI 训练数据,发布 QVAC Genesis II 数据集


发现顶尖的金融科技新闻和活动!

订阅FinTech Weekly的新闻简报

由JP Morgan、Coinbase、Blackrock、Klarna等高管阅读


开放AI训练数据的重大扩展

Tether Data发布了其人工智能合成教育数据集的新版本,显著增加了可供全球研究人员使用的开放训练材料的数量和范围。该公司的AI研究部门QVAC宣布,新发布的版本名为QVAC Genesis II,新增了1070亿个标记,使总规模达到1480亿个标记。

扩展的数据集现在是为AI预训练专门设计的最大公开合成教育资源。它涵盖19个学术领域,旨在改善模型学习推理、解释和决策的方式,而不仅仅是表面层次的模式识别。

这一公告将此次发布视为朝着更透明和可访问的AI发展迈出的一步,因为许多高级训练数据集仍然锁定在专有系统中。

基于第一次Genesis发布的基础

QVAC Genesis II基于首次引入的Genesis I的工作,该工作专注于创建一个经过验证的、以教育为中心的合成数据集,涵盖核心科学、技术、工程和数学科目。早期的发布建立了一个生成结构化训练问题的框架,旨在提高推理准确性。

新版本将覆盖范围扩展到十个额外领域,包括化学、计算机科学、统计学、机器学习、天文学、地理学、计量经济学和电气工程。它还重新审视了大学水平的物理内容,使用一种更新的方法重新生成,以提高概念的清晰度。

这两个发布共同形成了QVAC所描述的迄今为止向公众提供的最广泛的合成教育数据集。该数据集旨在用于大型语言模型和其他需要结构化学术材料的AI系统的预训练。

训练数据生成方式的转变

Genesis II的核心是被称为选项级推理的新数据生成方法。该方法与许多现有的合成数据技术不同,不仅关注错误答案,还关注正确答案。

该方法并不将正确的回答视为过程的结束,而是分析多项选择题中的每一个选项。正确选择被细分以强化其正确性,而错误选项则被检查以解决常见的误解。这种结构使模型能够学习因果推理和决策逻辑,而不仅仅是将问题与结果关联。

该方法与Genesis I中引入的失败分析方法相辅相成,后者专注于从模型错误中提取价值。这两种方法共同构成了一个管道,每个生成的问题旨在提供教学价值。

QVAC引用的独立评估表明,基于Genesis II数据训练的模型在推理准确性上表现更高,产生的答案也比基于早期合成数据集训练的模型更清晰。

重视理解而非流畅性

当前的AI训练生态系统很大程度上依赖于汇集大量文本,通常是从公共来源抓取的,以提高语言流畅性。QVAC的 stated goal 在强调上有所不同。Genesis数据集的结构旨在教导模型如何推理问题并以清晰的方式解释结论。

公司领导已表示,意图是超越仅预测可能文本序列的训练系统,朝着展示对基本概念理解的模型前进。数据集设计优先考虑清晰性、因果关系和逻辑,旨在减少模型输出中的歧义。

这种方法与AI研究中关于可靠性和可解释性的更广泛讨论相一致,尤其是在AI系统被用于教育、科学和决策支持的背景下。

研究人员和开发者的开放访问

与原始Genesis数据集一样,QVAC Genesis II也被公开发布。该数据集在知识共享署名-非商业性使用4.0许可证下提供,允许研究人员、学术机构和独立开发者在非商业环境中使用和研究数据。

该数据集和相关模型托管在Hugging Face上,并附有详细的技术论文,概述了生成方法和评估结果。这种开放分发旨在降低那些无法访问大型专有数据集的研究人员的障碍。

通过保持非商业许可,QVAC旨在支持学术和社区驱动的研究,同时限制直接的商业利用。

支持去中心化的AI发展

这一发布也符合Tether Data推动去中心化AI发展的更广泛战略。公司表示,高质量的训练数据不应仅限于那些能访问集中云基础设施的组织。

通过公开提供大规模、结构化的数据集,QVAC希望能够支持本地训练、实验和AI模型的部署。这种方法旨在支持计算资源可能有限但智力贡献仍然显著的研究环境。

对去中心化的重视反映了人们对减少对少数主导AI平台的依赖和促进更分散的研究生态系统的日益关注。

Tether在AI研究中的角色

QVAC作为Tether Data的AI研究部门运作。虽然Tether因其在数字资产和稳定币中的角色而广为人知,但近年来该公司已将其活动扩展到数据和AI研究领域。

通过QVAC,Tether Data专注于建立支持开放研究的基础设施和资源。Genesis数据集代表了这一努力最显著的成果之一,使公司在开放AI发展和以教育为中心的训练数据的讨论中占据一席之地。

这项工作还反映出金融科技公司与先进AI研究之间日益重叠的趋势,因为金融科技公司越来越多地投资于数据科学和机器学习能力。

领导层对发布的看法

公司领导将Genesis II的发布框定为一种摆脱单纯优先考虑数量的训练方法的举措。根据Tether执行团队的陈述,重点在于教导AI系统如何推理和解释,而不仅仅是生成流利的响应。

Tether首席执行官Paolo Ardoino强调,可靠的AI应基于理解答案正确的原因。他表示,公开提供数据集反映了一种信念,即更强大、更可解释的AI对整个社会都有益。

这些观点呼应了研究人员对主要在非结构化文本上训练的模型局限性的担忧。

教育范围和领域覆盖

结合的Genesis I和II数据集涵盖19个领域,内容设计针对中等和高等教育水平。科目从基础数学和物理到应用领域如计量经济学和机器学习不等。

每个领域包括结构化问题、解释和推理路径,旨在反映概念在正式教育环境中的教授和评估方式。这种设计旨在支持需要逻辑一致性和概念深度的预训练任务。

通过使用改进的方法重新生成和扩展内容,QVAC旨在优化教育材料在合成数据集中的表现。

评估和模型性能

根据QVAC引用的内部和独立评估,基于Genesis II数据训练的模型在重推理任务中表现出改善。这些任务包括回答结构化问题、解释结论,并避免模糊或矛盾的响应。

评估结果表明,失败分析与选项级推理的结合导致了更一致的输出。尽管公司并未将数据集定位为独立解决方案,但它已将其作为进一步训练和微调的坚实基础进行展示。

预计研究人员将在社区中更广泛使用数据集时进行额外的评估。

对开放AI研究的影响

如此大规模的开放数据集的发布可能会影响学术和独立研究人员如何接近模型训练。以这种规模获取结构化教育数据的机会传统上仅限于资金充足的组织。

通过提供替代方案,QVAC Genesis II可能支持对较小模型的实验、本地训练努力和可解释AI方法的研究。

该数据集也可能作为未来合成数据项目的基准,优先考虑推理质量而非单纯的规模。

在更广泛的AI生态系统中的位置

QVAC Genesis II进入了一个快速发展的AI生态系统,资源日益集中。许多最强大的模型是在无法获得审查或复制的专有数据集上训练的。

像Genesis II这样的开放数据集提供了一个对立面,促进透明度和共同进步。它们还引发了关于开放资源如何与商业AI发展共存的问题。

一家植根于金融科技和数字资产的公司的参与突显了AI研究如何从传统技术公司以外的广泛行业中获得关注。

可用性和下一步

该数据集的完整技术文档,题为“QVAC Genesis II:扩展最大的和最高质量的多领域教育合成数据集以进行预训练”,已发布在QVAC研究博客上。通过Hugging Face可以访问数据集和相关模型。

QVAC表示,它计划继续改进其方法,并在未来的发布中扩大教育覆盖面。来自研究社区的反馈预计将在后续版本的形成中发挥作用。

持续推动开放基础

通过Genesis II,QVAC重申了开放、结构化训练数据对于构建可靠AI系统的重要性。该发布反映了一种观点,即智能应基于推理和解释,而不仅仅是统计关联。

随着AI系统越来越多地融入教育、科学和金融服务,包括金融科技应用,其训练数据的质量将始终是一个核心问题。

目前,扩展的Genesis数据集作为对开放AI研究的显著贡献,提供了在专有环境之外罕见的规模、结构和可访问性。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论