泰达币通过发布QVAC Genesis II数据集扩大Open AI训练数据


发现顶级金融科技新闻和事件!

订阅金融科技周刊的新闻通讯

由摩根大通、Coinbase、黑石、Klarna 等高管阅读


Open AI 训练数据的重大扩展

Tether Data 发布了其人工智能合成教育数据集的新版本,显著增加了全球研究人员可用的开放训练材料的数量和范围。该公司 AI 研究部门 QVAC 宣布,新版本名为 QVAC Genesis II,在之前的数据集基础上增加了 1070 亿个标记,总规模达到 1480 亿个标记。

扩展后数据集现已成为最大规模的公开可用、专为 AI 预训练设计的合成教育资源。它涵盖 19 个学术领域,旨在改善模型的推理、解释和决策能力,而非表面模式识别。

该公告将此次发布定位为迈向更透明、更易获取的 AI 发展的一步,此时许多先进的训练数据集仍被封存在专有系统中。

基于首次 Genesis 版本的基础

QVAC Genesis II 在 Genesis I 的基础上进行了扩展,后者专注于创建一个验证过的、以教育为中心的合成数据集,涵盖核心科学、技术、工程和数学科目。早期版本建立了生成结构化训练问题的框架,旨在提升推理准确性。

新版本将覆盖范围扩展到十个额外领域,包括化学、计算机科学、统计学、机器学习、天文学、地理学、计量经济学和电气工程。它还重新生成了大学物理内容,采用更新的方法以提高清晰度。

这两次发布共同构成了 QVAC 所称的“迄今为止最全面的合成教育数据集”。该数据集旨在用于预训练大型语言模型和其他需要结构化学术材料的 AI 系统。

训练数据生成方式的转变

Genesis II 的核心是一种称为“选项级推理”的新型数据生成方法。这种方法不同于许多现有的合成数据技术,它不仅关注错误答案,也关注正确答案。

它不将正确答案视为过程的终点,而是分析多项选择题中的每个选项。正确选项被拆解以强化其正确性,而错误选项则被审查以纠正常见误解。这种结构使模型能够学习因果推理和决策逻辑,而非仅仅将问题与结果关联。

这种方法补充了 Genesis I 中引入的“故障分析”技术,后者专注于从模型错误中提取价值。两者结合形成一个流程,每个生成的问题都旨在提供教学价值。

QVAC 引用的独立评估显示,基于 Genesis II 数据训练的模型在推理准确性方面表现更佳,答案也更清晰。

强调理解而非流畅

当前的 AI 训练生态系统大量依赖从公共资源抓取的海量文本,以提升语言流畅性。QVAC 的目标则不同,强调模型如何推理问题和清晰解释结论。

公司领导表示,目标是超越仅预测文本序列的训练系统,转向能理解底层概念的模型。数据集设计优先考虑清晰性、因果关系和逻辑性,旨在减少模型输出中的歧义。

这一策略符合 AI 研究中关于可靠性和可解释性的更广泛讨论,尤其是在教育、科学和决策支持等场景中。

研究人员和开发者的开放访问

与原始 Genesis 数据集一样,QVAC Genesis II 也将公开发布。该数据集采用知识共享署名-非商业性使用 4.0 许可证,允许研究人员、学术机构和独立开发者在非商业环境中使用和研究数据。

数据集及相关模型托管在 Hugging Face 上,并附有详细的技术论文,介绍生成方法和评估结果。这一开放发布旨在降低没有访问大型专有数据集的研究者的门槛。

通过保持非商业许可,QVAC 旨在支持学术和社区驱动的研究,同时限制直接商业利用。

支持去中心化的 AI 发展

此次发布也符合 Tether Data 推行的更广泛战略,即鼓励去中心化的 AI 研发。公司表示,高质量的训练数据不应仅限于拥有集中式云基础设施的组织。

通过公开大型结构化数据集,QVAC 希望支持本地训练、试验和部署 AI 模型。这一策略旨在支持计算资源有限但智力贡献仍然重要的研究环境。

去中心化的强调反映出减少对少数主导平台依赖、推动更分散的研究生态的日益增长的兴趣。

Tether 在 AI 研究中的角色

QVAC 作为 Tether Data 的 AI 研究部门运作。虽然 Tether 以其在数字资产和稳定币方面的角色广为人知,但近年来也扩展到数据和 AI 研究领域。

通过 QVAC,Tether Data 致力于构建支持开放研究的基础设施和资源。Genesis 数据集是该努力中最显著的成果之一,将公司定位于开放 AI 发展和以教育为重点的训练数据讨论中。

这项工作也反映了金融科技公司与先进 AI 研究日益交融的趋势,金融科技企业越来越多地投资于数据科学和机器学习能力。

领导层对发布的看法

公司领导将 Genesis II 的发布描述为远离仅以数量为导向的训练方法的举措。Tether 高管强调,重点在于教会 AI 系统如何推理和解释,而非仅仅生成流畅的回答。

Tether 首席执行官 Paolo Ardoino 表示,可靠的 AI 应该建立在理解答案为何正确的基础上。他指出,公开数据集反映了一种信念:更强大、更具可解释性的 AI 有益于社会。

这些观点呼应了研究人员对主要基于非结构化文本训练模型局限性的担忧。

教育范围与学科覆盖

Genesis I 和 II 两个数据集共涵盖 19 个领域,内容设计为中学和高等教育水平。科目包括基础数学和物理,以及应用领域如计量经济学和机器学习。

每个领域都包含结构化的问题、解释和推理路径,旨在模拟正式教育中的教学和评估方式。这一设计支持需要逻辑一致性和概念深度的预训练任务。

通过采用改进的方法重新生成和扩展内容,QVAC 旨在优化教育材料在合成数据中的表现。

评估与模型表现

根据 QVAC 引用的内部和独立评估,基于 Genesis II 数据训练的模型在推理密集型任务中表现更佳,包括回答结构化问题、解释结论以及避免模棱两可或矛盾的回答。

评估结果显示,故障分析和选项级推理的结合能带来更一致的输出。虽然公司未将该数据集定位为单一解决方案,但它被视为进一步训练和微调的坚实基础。

研究人员预计会进行更多评估,以便在社区中推广使用。

对开放 AI 研究的影响

如此大规模的开源数据集的发布,可能会影响学术界和独立研究者的模型训练方式。以往,获得结构化教育数据的途径有限,通常由资金雄厚的机构掌控。

通过提供替代方案,QVAC Genesis II 有望支持小型模型的试验、本地训练以及可解释 AI 方法的研究。

该数据集也可能成为未来强调推理质量而非规模的合成数据项目的基准。

在更广泛 AI 生态中的定位

QVAC Genesis II 进入了一个快速发展、资源日益集中的 AI 生态系统。许多最强大的模型都在专有数据集上训练,难以审查或复制。

像 Genesis II 这样的开源数据集提供了对比,促进透明度和共同进步。它们也引发关于开源资源如何与商业 AI 发展共存的讨论。

一家根植于金融科技和数字资产的公司参与其中,彰显了 AI 研究正吸引来自传统科技之外的多行业关注。

可用性与未来步骤

关于该数据集的完整技术文档,题为“QVAC Genesis II:扩展最大规模和最高质量的多领域教育合成数据集用于预训练”,已在 QVAC 研究博客上发布。通过 Hugging Face 可以访问数据集和相关模型。

QVAC 表示,未来将继续优化方法,扩大教育内容覆盖。研究社区的反馈将有助于塑造后续版本。

持续推动开放基础

通过 Genesis II,QVAC 重申其观点:开放、结构化的训练数据对于构建可靠的 AI 系统至关重要。该发布反映了一个观点:智能应建立在推理和解释之上,而非仅仅统计关联。

随着 AI 系统在教育、科学和金融服务(包括金融科技应用)中的融合,训练数据的质量将始终是核心关注点。

目前,扩展的 Genesis 数据集作为一个重要的开源 AI 研究贡献,提供了规模、结构和可访问性,展现出在非专有环境中罕见的水平。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论