Tether 扩展 Open AI 训练数据,发布 QVAC Genesis II 数据集


发现顶级金融科技新闻和活动!

订阅FinTech Weekly的新闻通讯

由摩根大通、Coinbase、黑石、Klarna等高管阅读


Open AI训练数据的重大扩展

Tether Data发布了其人工智能合成教育数据集的新版本,显著增加了全球研究人员可用的开放训练材料的数量和范围。该公司AI研究部门QVAC宣布,新版本名为QVAC Genesis II,在原有数据集基础上增加了1070亿个标记,总规模达到1480亿个标记。

扩展后数据集现已成为公开可用的最大专为AI预训练设计的合成教育资源。它涵盖19个学术领域,旨在改善模型的推理、解释和决策能力,而非仅仅识别表面模式。

该公告将此次发布定位为迈向更透明、更易获取的AI开发的重要一步,目前许多先进的训练数据集仍被封存在专有系统中。

基于首次Genesis发布的基础

QVAC Genesis II在Genesis I的基础上进行了扩展。Genesis I专注于创建一个经过验证、以教育为中心的合成数据集,涵盖核心科学、技术、工程和数学科目。早期版本建立了生成结构化训练题目的框架,旨在提升推理准确性。

新版本将覆盖范围扩展到十个额外领域,包括化学、计算机科学、统计学、机器学习、天文学、地理学、计量经济学和电气工程。它还重新生成了大学物理内容,采用更新的方法以提高清晰度。

这两次发布共同构成了QVAC所称的迄今为止最全面的合成教育数据集。该数据集旨在用于预训练大型语言模型和其他需要结构化学术材料的AI系统。

训练数据生成方式的转变

Genesis II的核心是一种称为“选项级推理”的新型数据生成方法。这种方法不同于许多现有的合成数据技术,它不仅关注错误答案,还关注正确答案。

而不是将正确答案视为终点,该方法分析多项选择题中的每个选项。正确选项被拆解以强化其正确性,而错误选项则被审查以纠正常见误解。这种结构使模型能够学习因果推理和决策逻辑,而非仅仅将问题与结果关联。

该方法补充了Genesis I中引入的“故障分析”技术,后者侧重于从模型错误中提取价值。两者结合形成一个流程,每个生成的问题都旨在提供教学价值。

QVAC引用的独立评估显示,基于Genesis II数据训练的模型在推理准确性方面优于使用早期合成数据集训练的模型,输出也更为清晰。

强调理解而非流畅

当前的AI训练生态系统大量依赖从公共资源抓取的海量文本,以提升语言流畅性。QVAC的目标则不同,强调模型如何推理问题、清楚解释结论。

公司领导表示,目标是超越仅预测文本序列的训练系统,转向理解底层概念的模型。数据集设计优先考虑清晰性、因果关系和逻辑性,旨在减少模型输出中的歧义。

这一策略符合AI研究中关于可靠性和可解释性的更广泛讨论,尤其是在教育、科学和决策支持等场景中。

研究人员和开发者的开放访问

与原始Genesis数据集一样,QVAC Genesis II也将向公众开放。该数据集采用知识共享署名-非商业性使用4.0协议(CC BY-NC 4.0),允许研究人员、学术机构和独立开发者在非商业环境中使用和研究。

数据集及相关模型托管在Hugging Face平台,并附有详细的技术论文,介绍生成方法和评估结果。这一开放发布旨在降低没有访问大型专有数据集的研究者的门槛。

通过保持非商业许可,QVAC旨在支持学术和社区驱动的研究,同时限制直接商业利用。

支持去中心化的AI开发

此次发布也符合Tether Data推动去中心化AI开发的更广泛战略。公司表示,高质量的训练数据不应仅由拥有集中式云基础设施的组织掌控。

通过公开大型结构化数据集,QVAC希望促进本地训练、试验和部署AI模型。这一做法旨在支持计算资源有限但智力贡献仍然重要的研究环境。

强调去中心化反映出减少对少数主导AI平台依赖、推动更分散的研究生态的日益增长的兴趣。

Tether在AI研究中的角色

QVAC作为Tether Data的AI研究部门运营。虽然Tether以其数字资产和稳定币而闻名,但近年来已扩展到数据和AI研究领域。

通过QVAC,Tether Data专注于构建支持开放研究的基础设施和资源。Genesis数据集是其努力的最直观成果之一,将公司定位于开放AI开发和以教育为重点的训练数据讨论中。

这项工作也反映出金融科技公司与先进AI研究日益融合的趋势,金融科技企业越来越多地投资于数据科学和机器学习能力。

领导层对发布的看法

公司领导将Genesis II的发布描述为远离仅以数量为导向的训练方法。Tether高管强调,重点在于教会AI系统推理和解释,而非仅仅生成流畅的回答。

Tether首席执行官Paolo Ardoino强调,可靠的AI应建立在理解答案为何正确的基础上。他表示,公开提供数据集体现了相信更强、更具可解释性的AI能造福社会的理念。

这些观点呼应了研究人员对主要基于非结构化文本训练模型局限性的担忧。

教育范围与学科覆盖

Genesis I和II两个数据集共涵盖19个学科,内容设计符合中学和高等教育水平。科目包括基础数学、物理,以及应用领域如计量经济学和机器学习。

每个学科都包含结构化的问题、解释和推理路径,旨在模拟正式教育中的教学和评估方式。这一设计支持需要逻辑一致性和概念深度的预训练任务。

通过采用改进的方法重新生成和扩展内容,QVAC旨在优化合成数据集中教育材料的表现。

评估与模型表现

根据QVAC引用的内部和独立评估,基于Genesis II数据训练的模型在推理密集型任务中表现更佳,包括回答结构化问题、解释结论以及避免模棱两可或矛盾的回答。

评估结果显示,故障分析和选项级推理的结合能带来更一致的输出。虽然公司未将该数据集定位为单一解决方案,但其被视为进一步训练和微调的坚实基础。

研究人员预计,随着数据集在社区中的更广泛应用,还会进行更多的评估。

对开放AI研究的影响

如此庞大的开源数据集的发布,可能会影响学术界和独立研究者的模型训练方式。以往,获得结构化教育数据的途径有限,通常由资金雄厚的机构掌控。

通过提供替代方案,QVAC Genesis II有望支持小型模型的试验、本地训练以及可解释AI方法的研究。

该数据集也可能成为未来强调推理质量而非规模的合成数据项目的基准。

在更广泛AI生态中的位置

QVAC Genesis II进入一个快速发展、资源集中度不断提高的AI生态系统。许多最强大的模型都基于专有数据集,难以审查或复制。

像Genesis II这样的开源数据集提供了透明性和共享进步的可能性,也引发了关于开源资源如何与商业AI发展共存的讨论。

一家根植于金融科技和数字资产的公司参与其中,彰显了AI研究正吸引来自传统科技之外的多行业关注。

可用性与未来方向

“QVAC Genesis II:扩展最大、最高质量的多领域教育合成数据集用于预训练”的完整技术文档已在QVAC研究博客上发布。通过Hugging Face平台可以访问数据集和相关模型。

QVAC表示,未来将继续优化方法、扩大教育内容覆盖。研究社区的反馈将有助于塑造后续版本。

持续推动开放基础

通过Genesis II,QVAC强调开放、结构化的训练数据对于构建可靠AI系统的重要性。该发布反映了一个观点:智能应建立在推理和解释之上,而非仅仅统计关联。

随着AI系统在教育、科学和金融服务(包括金融科技应用)中的应用日益普及,训练数据的质量将始终是核心关注点。

目前,扩展的Genesis数据集作为开放AI研究的重要贡献,提供了规模、结构和可访问性,远超许多非专有环境中的水平。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论