Tether 扩展 Open AI 训练数据,发布 QVAC Genesis II 数据集


发现顶级金融科技新闻与活动!

订阅 FinTech Weekly 的通讯简报

JP Morgan、Coinbase、Blackrock、Klarna 等高管阅读


Open AI 训练数据的重大扩展

Tether Data 已发布其用于人工智能的合成教育数据集新版本,大幅增加了向全球研究人员提供的开放训练材料的数量与范围。该公司旗下的 AI 研究部门 QVAC 宣布,名为 QVAC Genesis II 的新发布在其先前数据集的基础上新增 1070 亿个 tokens,使总规模达到 1480 亿个 tokens。

扩展后的数据集现已成为专为 AI 预训练而设计的最大公开合成教育资源。它覆盖 19 个学术领域,旨在提升模型在推理、解释与决策方面的学习方式,而非仅仅进行表层的模式识别。

该公告将此次发布定位为朝着更透明、更易获取的 AI 开发迈出的一步——在许多先进训练数据集仍被锁在专有系统内部的背景下尤其如此。

建立在首个 Genesis 版本之上

QVAC Genesis II 建立在最初通过 Genesis I 推出的工作之上;Genesis I 聚焦于创建一个经过验证、以教育为中心的合成数据集,覆盖核心科学、技术、工程与数学学科。该早期发布奠定了一个生成结构化训练问题的框架,旨在提升推理准确性。

新发布将覆盖范围扩展到十个额外领域,包括化学、计算机科学、统计学、机器学习、天文学、地理学、计量经济学以及电气工程。它还重新审视了大学阶段的物理内容,并使用旨在提升概念清晰度的更新方法对其进行了再生。

合并这两次发布,QVAC 将其描述为迄今向公众开放的最为庞大的合成教育数据集。该数据集旨在用于预训练大型语言模型以及其他需要结构化学术材料的 AI 系统。

训练数据生成方式的转变

Genesis II 的核心是一种称为 Option-Level Reasoning(选项级推理)的新数据生成方法。这种方法不同于许多现有的合成数据技术:它不仅关注错误答案,也同样关注正确答案。

该方法并不将正确回答视为流程的终点,而是会分析多项选择题中的每一个答案选项。正确选项将被拆解以强化其正确性的原因;而对错误选项,则会进行审视以处理常见的误解。这样的结构使模型能够学习因果推理与决策逻辑,而不仅仅是将问题与结果进行关联。

该方法与 Genesis I 中提出的 Failure Analysis(失败分析)方法相互补充;Failure Analysis 聚焦于从模型错误中提取价值。两种方法共同构成一条流水线:每个生成的问题都被设计为能够贡献教学价值。

QVAC 引用的独立评估表明,使用 Genesis II 数据训练的模型在推理准确性方面表现更高,并且能比使用更早期合成数据集训练的模型产出更清晰的答案。

强调理解而非流畅度

当前 AI 训练生态系统的大部分依赖于组装非常大量的文本,这些文本往往来自公开来源并被抓取,用以提升语言流畅度。QVAC 所表述的目标在侧重点上有所不同。Genesis 数据集的结构旨在教会模型如何通过问题进行推理,并以清晰的方式解释结论。

公司领导层已表示,意图是超越那些仅预测可能文本序列的训练系统,转向能够展现对底层概念理解的模型。数据集设计优先考虑清晰性、因果性与逻辑性,力求降低模型输出中的歧义。

这种做法与 AI 研究中关于可靠性与可解释性的更广泛讨论相一致,尤其是在 AI 系统用于教育、科学与决策支持等场景时。

为研究者与开发者提供开放访问

与最初的 Genesis 数据集类似,QVAC Genesis II 也在以开放形式发布。该数据集可在 Creative Commons Attribution–NonCommercial 4.0 许可协议下使用,允许研究人员、学术机构和独立开发者在非商业场景之外使用并研究该数据。

数据集及相关模型托管在 Hugging Face 上,同时还附有一篇详细的技术论文,概述生成方法与评估结果。这种开放式分发旨在降低门槛,帮助那些无法获得大型专有数据集的研究人员开展研究。

通过维持非商业许可,QVAC 旨在支持学术与由社区驱动的研究,同时限制直接的商业化剥削。

支持去中心化的 AI 开发

该发布也契合 Tether Data 为推动去中心化 AI 开发所执行的更大策略。公司表示,高质量的训练数据不应仅限于那些能够访问集中式云端基础设施的组织。

通过将大规模、结构化的数据集公开提供,QVAC 旨在支持本地训练、实验以及 AI 模型的部署。该做法旨在支撑那些计算资源可能受限、但智力贡献依然具有重要意义的研究环境。

对去中心化的强调反映了人们日益增长的兴趣:减少对少数占主导地位的 AI 平台的依赖,并培育更分布式的研究生态系统。

Tether 在 AI 研究中的角色

QVAC 作为 Tether Data 的 AI 研究部门运作。尽管 Tether 以其数字资产与稳定币的角色广为人知,但近年来公司已将其业务扩展到数据与 AI 研究领域。

通过 QVAC,Tether Data 聚焦于构建支持开放研究的基础设施与资源。Genesis 数据集代表了该项努力中最具可见度的成果之一,使公司在围绕开放 AI 开发与以教育为导向的训练数据的讨论中占据一席之地。

这项工作也反映了金融科技公司与先进 AI 研究之间不断加深的重叠趋势;随着金融科技企业越来越多地投资数据科学与机器学习能力。

关于此次发布的领导层视角

公司领导层将 Genesis II 的发布描述为远离那些仅优先追求规模的训练方式。据 Tether 高管团队的表述,重点在于教会 AI 系统如何推理并解释,而不仅仅是生成流畅的回复。

Tether 首席执行官 Paolo Ardoino 强调,可靠的 AI 应建立在理解“为什么答案是正确的”之上。他表示,公开提供数据集体现了这样一种信念:更强大、可解释性更高的 AI 将整体上造福社会。

这些观点呼应了研究人员提出的担忧:主要基于非结构化文本训练的模型存在局限性。

教育范围与领域覆盖

Genesis I 与 II 两套数据集合计覆盖 19 个领域,内容面向中等与高等教育层级。学科范围从基础数学与物理,延伸到诸如计量经济学与机器学习等应用领域。

每个领域都包含结构化的问题、解释与推理路径,旨在模拟概念在正规教育环境中如何被教授与评估。这样的设计旨在支持那些需要逻辑一致性与概念深度的预训练任务。

通过使用改进的方法对内容进行再生与扩展,QVAC 旨在进一步打磨教育材料在合成数据集中如何被表达与呈现。

评估与模型表现

根据 QVAC 提及的内部评估与独立评估结果,使用 Genesis II 数据训练的模型在偏重推理的任务中表现得到提升。这些任务包括回答结构化问题、解释结论,以及避免产生含糊或相互矛盾的回应。

评估结果表明,Failure Analysis(失败分析)与 Option-Level Reasoning(选项级推理)的结合会带来更一致的输出。尽管公司并未将该数据集定位为独立解决方案,但其已将其呈现为后续训练与微调的坚实基础。

随着该数据集在社区中获得更广泛的使用,研究人员预计还将开展更多评估。

对开放 AI 研究的影响

发布这样规模庞大且开放的数据集,可能会影响学术与独立研究人员在模型训练方面的思路。以往,在这种规模下获取结构化教育数据通常仅限于资金充足的组织。

通过提供一种替代方案,QVAC Genesis II 或许能够支持对更小模型的实验、本地化训练工作,以及对可解释 AI 方法的研究。

该数据集也可能成为未来更重视推理质量而非单纯规模的合成数据项目的基准。

在更广泛 AI 生态中的定位

QVAC Genesis II 进入了一个以快速发展与资源集中度提升为特征的 AI 生态系统。许多最具能力的模型都使用专有数据集进行训练,而这些数据集无法被审查或复现。

像 Genesis II 这样的开放数据集提供了一个对照方案:它们带来透明性并推动共享进展。它们也引发了关于开放资源如何与商业化 AI 开发共存的问题。

一家扎根于金融科技与数字资产的公司的参与,凸显了 AI 研究如何吸引来自广泛行业的关注——超出了传统科技公司的范畴。

可用性与下一步

该数据集的完整技术文档,标题为 “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”(QVAC Genesis II:扩展最大的且高质量的多领域教育合成数据集,用于预训练),已发布在 QVAC 的研究博客上。通过 Hugging Face 可获取该数据集及相关模型。

QVAC 表示,计划在未来的发布中继续完善其方法,并扩展教育覆盖范围。来自研究社区的反馈预计将在塑造后续迭代中发挥作用。

持续推动开放基础

通过 Genesis II,QVAC 重申其观点:开放、结构化的训练数据对于构建可靠的 AI 系统至关重要。该发布反映了一种看法:智能应建立在推理与解释之上,而不仅仅是统计关联。

当 AI 系统变得越来越深入地融入教育、科学与金融服务(包括金融科技应用)时,它们训练数据的质量将继续是一个核心关注点。

就目前而言,扩展后的 Genesis 数据集作为开放 AI 研究的一项引人注目的贡献而存在:它在规模、结构与可获取性方面提供了难得的水平——在通常仅限于专有环境之外几乎很少见。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论