Tether 扩展 Open AI 训练数据,发布 QVAC Genesis II 数据集


发现顶级金融科技新闻和活动!

订阅FinTech Weekly的新闻通讯

由摩根大通、Coinbase、黑石、Klarna等高管阅读


Open AI训练数据的重大扩展

泰达币数据发布了其人工智能合成教育数据集的新版,大幅增加了全球研究人员可用的开放训练材料的数量和范围。该公司AI研究部门QVAC宣布,新版本名为QVAC Genesis II,在原有数据集基础上增加了1070亿个标记,总规模达到1480亿个标记。

扩展后的数据集现已成为公开可用的最大专为AI预训练设计的合成教育资源。它涵盖19个学术领域,旨在改善模型的推理、解释和决策能力,而非仅仅识别表面模式。

该公告将此次发布定位为迈向更透明、更易获取的AI开发的重要一步,目前许多先进的训练数据集仍被封闭在专有系统中。

基于首次Genesis发布的基础

QVAC Genesis II在最初的Genesis I基础上进行了扩展,后者专注于创建一个验证过的、以教育为中心的合成数据集,涵盖核心的科学、技术、工程和数学科目。早期版本建立了生成结构化训练题目的框架,旨在提升推理准确性。

新版本将覆盖范围扩展到十个额外领域,包括化学、计算机科学、统计学、机器学习、天文学、地理学、计量经济学和电气工程。还重新生成了大学物理内容,采用更新的方法以提高清晰度。

这两次发布共同构成了QVAC所称的“迄今为止最全面的合成教育数据集”。该数据集旨在用于预训练大型语言模型和其他需要结构化学术材料的AI系统。

训练数据生成方式的转变

Genesis II的核心是一种称为“选项级推理”的新型数据生成方法。这种方法不同于许多现有的合成数据技术,不仅关注错误答案,还关注正确答案。

它不将正确答案视为终点,而是分析多项选择题中的每个选项。正确选项被拆解以强化其正确性,而错误选项则用以纠正常见误解。这种结构使模型能够学习因果推理和决策逻辑,而非仅仅将问题与结果关联。

该方法补充了Genesis I中引入的“故障分析”技术,后者侧重于从模型错误中提取价值。两者结合形成一个流程,每个生成的问题都旨在提供教学价值。

QVAC引用的独立评估显示,基于Genesis II数据训练的模型在推理准确性方面表现更佳,答案也更清晰。

强调理解而非流畅

当前的AI训练生态系统大量依赖从公共资源抓取的海量文本,以提升语言流畅性。QVAC的目标则不同,强调模型如何推理和清楚地解释结论。

公司领导表示,目标是超越仅预测文本序列的训练系统,转向理解底层概念的模型。数据集设计优先考虑清晰性、因果关系和逻辑性,旨在减少模型输出中的歧义。

这一策略符合AI研究中关于可靠性和可解释性的更广泛讨论,尤其是在教育、科学和决策支持等场景中。

对研究人员和开发者的开放访问

与原始Genesis数据集一样,QVAC Genesis II也将公开发布。该数据集采用知识共享署名-非商业性使用4.0协议,允许研究人员、学术机构和独立开发者在非商业环境中使用和研究。

数据集及相关模型托管在Hugging Face平台,并附有详细的技术论文,介绍生成方法和评估结果。这一开放发布旨在降低没有大型专有数据集访问权限的研究人员的门槛。

通过保持非商业许可,QVAC旨在支持学术和社区驱动的研究,同时限制直接商业利用。

支持去中心化的AI开发

此次发布也符合泰达币数据推动去中心化AI发展的更广战略。公司表示,高质量的训练数据不应仅限于拥有集中式云基础设施的组织。

通过公开大型结构化数据集,QVAC希望支持本地训练、试验和部署AI模型。这有助于在计算资源有限但智力贡献仍然重要的研究环境中开展工作。

强调去中心化反映出减少对少数主导AI平台依赖、促进更分散的研究生态的日益关注。

泰达币在AI研究中的角色

QVAC作为泰达币数据的AI研究部门运作。虽然泰达币以其在数字资产和稳定币领域的角色广为人知,但近年来也扩展到数据和AI研究。

通过QVAC,泰达币数据专注于构建支持开放研究的基础设施和资源。Genesis数据集是该努力的最显著成果之一,将公司定位于开放AI开发和以教育为重点的训练数据讨论中。

这项工作也反映了金融科技公司与先进AI研究日益融合的趋势,金融科技企业正不断加大在数据科学和机器学习方面的投入。

领导层对发布的看法

公司领导将Genesis II的发布视为远离仅以数量为导向的训练方法的转变。泰达币高管强调,AI系统应学会推理和解释,而非仅仅生成流畅的回答。

泰达币CEO帕奥洛·阿尔多伊诺强调,可靠的AI应建立在理解答案为何正确的基础上。他表示,公开数据集反映了一种信念:更强大、更具可解释性的AI对社会有益。

这些观点呼应了研究人员对主要基于非结构化文本训练模型局限性的担忧。

教育范围与学科覆盖

Genesis I和II两个数据集共涵盖19个领域,内容设计符合中学和高等教育水平。科目包括基础数学、物理学,以及应用领域如计量经济学和机器学习。

每个领域都包含结构化的问题、解释和推理路径,旨在模拟正式教育中的教学和评估方式。这一设计支持需要逻辑一致性和概念深度的预训练任务。

通过采用改进的方法重新生成和扩展内容,QVAC旨在优化教育材料在合成数据中的表现。

评估与模型表现

根据QVAC引用的内部和独立评估,基于Genesis II数据训练的模型在推理密集型任务中表现更佳,包括回答结构化问题、解释结论以及避免模棱两可或矛盾的回答。

评估结果显示,故障分析和选项级推理的结合能带来更一致的输出。虽然公司未将该数据集定位为单一解决方案,但它被视为进一步训练和微调的坚实基础。

预计研究人员将在社区中更广泛使用该数据集后,进行更多评估。

对开放AI研究的影响

如此大规模的开源数据集的发布,可能会影响学术界和独立研究者的模型训练方式。以往,获得结构化教育数据的途径有限,通常由资金雄厚的机构掌控。

通过提供替代方案,QVAC Genesis II有望支持小型模型的试验、本地训练和可解释AI方法的研究。

该数据集也可能成为未来强调推理质量而非规模的合成数据项目的基准。

在更广泛AI生态中的定位

QVAC Genesis II进入了一个快速发展的AI生态系统,资源日益集中。许多最强大的模型都在专有数据集上训练,难以进行审查或复制。

像Genesis II这样的开源数据集提供了透明度和共享进步的可能性,也引发了关于开源资源如何与商业AI发展共存的讨论。

一家根植于金融科技和数字资产的公司参与其中,彰显了AI研究正吸引来自传统科技之外的多行业关注。

可用性与未来方向

“QVAC Genesis II:扩展最大、最高质量的多领域教育合成数据集用于预训练”完整技术文档已在QVAC研究博客上发布。数据集和相关模型可通过Hugging Face获取。

QVAC表示将继续优化方法,扩大教育内容覆盖范围。研究社区的反馈将有助于塑造后续版本。

持续推动开放基础

通过Genesis II,QVAC强调开放、结构化训练数据对于构建可靠AI系统的重要性。该发布反映了一个观点:智能应建立在推理和解释之上,而非仅仅统计关联。

随着AI系统在教育、科学和金融服务(包括金融科技应用)中的应用日益普及,训练数据的质量将始终是核心关注点。

目前,扩展的Genesis数据集作为开放AI研究的重要贡献,提供了规模、结构和可访问性,展现出在专有环境之外难得一见的水平。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论