福利加码,Gate 广场明星带单交易员三期招募开启!
入驻发帖 · 瓜分$30,000月度奖池 & 千万级流量扶持!
如何参与:
1️⃣ 报名成为跟单交易员:https://www.gate.com/copytrading/lead-trader-registration/futures
2️⃣ 报名活动:https://www.gate.com/questionnaire/7355
3️⃣ 入驻Gate广场,持续发布交易相关原创内容
丰厚奖励等你拿:
首发优质内容即得$30 跟单体验金
每双周瓜分$10,000U内容奖池
Top 10交易员额外瓜分$20,000U登榜奖池
精选帖推流、首页推荐、周度明星交易员曝光
详情:https://www.gate.com/announcements/article/50291
Tether 扩展 Open AI 训练数据,发布 QVAC Genesis II 数据集
发现顶级金融科技新闻与活动!
订阅 FinTech Weekly 的通讯
由 JP Morgan、Coinbase、Blackrock、Klarna 等高管阅读
Open AI 训练数据的重大扩展
Tether Data 已发布其用于人工智能的合成教育数据集新版本,显著增加了向全球研究人员开放的公开训练材料的规模与范围。该公司旗下的 AI 研究部门 QVAC 表示,新发布版本名为 QVAC Genesis II,为其先前的数据集新增 1070 亿个 tokens,使总规模达到 1480 亿个 tokens。
扩展后的数据集现已成为专为 AI 预训练而设计的、目前最大规模的公开合成教育资源。它覆盖 19 个学术领域,旨在提升模型学习推理、解释和决策的方式,而非仅仅停留在表层模式识别。
该公告将该发布定位为迈向更透明、更易获得的 AI 开发的一步。与此同时,许多先进的训练数据集仍被锁定在专有系统内部。
建立在首个 Genesis 发布之上
QVAC Genesis II 基于 Genesis I 首次推出的工作展开。Genesis I 聚焦于创建一个经过验证、以教育为中心的合成数据集,涵盖核心科学、技术、工程与数学学科。先前的发布建立了一个用于生成结构化训练问题的框架,目标是提升推理准确性。
新发布将覆盖范围扩展到另外十个领域,包括化学、计算机科学、统计学、机器学习、天文学、地理学、计量经济学以及电气工程。它还重新审视了大学层面的物理内容,并通过一种更新的方法学对其进行再生成,旨在提高概念清晰度。
合并这两次发布,正如 QVAC 所描述的那样,它们构成了迄今为止提供给公众的规模最为庞大的合成教育数据集。该数据集面向用于预训练大型语言模型以及其他需要结构化学术材料的 AI 系统。
训练数据生成方式的转变
Genesis II 的核心是一种新的数据生成方法,被称为选项级推理(Option-Level Reasoning)。该方法不同于许多现有的合成数据技术之处在于,它不仅关注错误答案,也同样关注正确答案。
该方法不把正确回复视为流程的终点,而是会分析多项选择题中的每一个选项。将正确选项拆解,以强化“为何它是正确的”;而对不正确选项则进行审视,以处理常见的误解。这样的结构使模型能够学习因果推理和决策逻辑,而不是仅仅把问题与结果进行关联。
该方法与 Genesis I 中引入的“失败分析(Failure Analysis)”方法相互补充。Genesis I 聚焦于从模型错误中提取价值。两种方法共同构成一条流水线:每一道生成的问题都旨在贡献教学价值。
QVAC 引用的独立评估表明,使用 Genesis II 数据训练的模型在推理准确性方面更高,并且比使用更早期的合成数据集训练的模型能产出更清晰的答案。
强调理解胜过流畅度
当前 AI 训练生态系统的很大一部分依赖于汇集非常大规模的文本,往往是从公开来源抓取而来,以提升语言流畅性。QVAC 所述目标在侧重点上有所不同。Genesis 数据集被设计为帮助模型学会如何在问题中进行推理,并以清晰的方式解释结论。
公司领导层已表示,意图是超越那些只会预测可能的文本序列的训练系统,转向能够展示对底层概念理解的模型。数据集设计将清晰度、因果性与逻辑性放在优先位置,旨在减少模型输出中的歧义。
这种做法与更广泛的 AI 研究讨论一致,讨论主题包括可靠性与可解释性,尤其是在 AI 系统被用于教育、科学以及决策支持场景时。
面向研究人员与开发者的开放获取
与最初的 Genesis 数据集一样,QVAC Genesis II 也在进行开放发布。该数据集可在知识共享署名-非商业 4.0(Creative Commons Attribution–NonCommercial 4.0)许可下使用,允许研究人员、学术机构以及独立开发者在非商业场景之外使用并研究该数据。
该数据集及相关模型托管在 Hugging Face 上,同时还提供一份详尽的技术论文,概述生成方法学与评估结果。这种开放式分发旨在降低研究人员的门槛——尤其是那些无法获得大型专有数据集的研究人员。
通过维持非商业许可,QVAC 旨在支持学术与社区驱动的研究,同时限制直接的商业化剥削。
支持去中心化的 AI 开发
该发布也契合 Tether Data 推进的一项更广泛战略:鼓励去中心化的 AI 开发。公司表示,高质量的训练数据不应仅限于那些能够访问集中式云基础设施的组织。
通过使大规模、结构化的数据集公开可用,QVAC 希望能够支持在本地进行训练、实验与 AI 模型部署。这种做法旨在支持计算资源可能有限、但智力贡献仍然具有重要性的研究环境。
对去中心化的强调反映出日益增长的兴趣:减少对少数主导 AI 平台的依赖,并培育更分布式的研究生态系统。
Tether 在 AI 研究中的角色
QVAC 作为 Tether Data 的 AI 研究部门运作。尽管 Tether 以其数字资产与稳定币角色广为人知,公司近几年已将其业务扩展到数据与 AI 研究领域。
通过 QVAC,Tether Data 专注于构建支持开放研究的基础设施与资源。Genesis 数据集是该项努力中最具可见性的产出之一,使公司在有关开放 AI 开发与以教育为导向的训练数据的讨论中占据一席之地。
这项工作也反映出金融科技公司与先进 AI 研究之间日益增大的重叠:随着金融科技企业越来越多地投资数据科学与机器学习能力。
关于发布的领导层视角
公司领导层将 Genesis II 的发布描述为偏离仅优先追求“规模”的训练方式。据 Tether 高管团队的表述,这一重点在于教会 AI 系统如何进行推理并解释,而不仅仅是生成流畅的回应。
Tether 首席执行官 Paolo Ardoino 强调,可靠的 AI 应当建立在对“为什么答案正确”的理解之上。他表示,将数据集以公开方式提供体现了这样的信念:更强、更可解释的 AI 将惠及整个社会。
这些观点也呼应了研究人员提出的担忧:模型如果主要基于非结构化文本训练,其局限性会更明显。
教育范围与领域覆盖
Genesis I 与 II 两个数据集合计覆盖 19 个领域,内容面向中等教育与高等教育层级。学科范围从基础数学与物理到诸如计量经济学与机器学习之类的应用领域。
每个领域都包含结构化问题、解释以及推理路径,旨在模拟概念在正规教育场景中如何被讲授与评估。此设计旨在支持那些需要逻辑一致性与概念深度的预训练任务。
通过使用改进的方法对内容进行再生成与扩展,QVAC 旨在打磨如何在合成数据集中呈现教育材料。
评估与模型表现
根据 QVAC 所引用的内部与独立评估结果,使用 Genesis II 数据训练的模型在以推理为主的任务上表现得到提升。这些任务包括回答结构化问题、解释结论,以及避免模糊或相互矛盾的回应。
评估结果表明,“失败分析(Failure Analysis)”与“选项级推理(Option-Level Reasoning)”的结合能够带来更一致的输出。尽管公司尚未将该数据集定位为独立的解决方案,但它已将该数据集展示为后续训练与微调的坚实基础。
随着该数据集在社区中获得更广泛使用,研究人员预计还将开展进一步的评估。
对开放式 AI 研究的启示
如此大规模的开放数据集发布,可能会影响学术与独立研究人员在模型训练方面的做法。在这种规模下获取结构化教育数据,过去往往仅限于资金充足的组织。
通过提供替代方案,QVAC Genesis II 可能支持对更小型模型的实验、本地化训练工作,以及对可解释 AI 方法的研究。
该数据集也可能成为未来那些优先考虑推理质量、而非仅仅追求规模的合成数据项目的基准。
在更广泛 AI 生态中的定位
QVAC Genesis II 进入了一个以快速发展和资源集中度提高为特征的 AI 生态系统。许多能力最强的模型是在专有数据集上进行训练的,这些数据集无法供外界审查或复现。
像 Genesis II 这样的开放数据集提供了一个反向选项:它们带来透明度与共同进步。同时也引发问题——开放资源如何与商业 AI 开发并存。
一家扎根于金融科技与数字资产的公司的参与,凸显出 AI 研究正在从传统科技公司之外吸引来自广泛行业的关注。
可用性与下一步
该数据集的完整技术文档,题为 “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training”,已发布在 QVAC 的研究博客上。通过 Hugging Face 可以获取该数据集及相关模型。
QVAC 表示,它计划在未来的发布中继续完善其方法,并扩展教育覆盖范围。预计研究社区的反馈将发挥作用,进而塑造后续迭代的方向。
持续推动开放式基础
借助 Genesis II,QVAC 强化其立场:开放、结构化的训练数据对于构建可靠的 AI 系统至关重要。该发布反映了一种观点,即智能应当建立在推理与解释之上,而不仅仅是统计关联。
随着 AI 系统越来越多地融入教育、科学与金融服务(包括金融科技应用)之中,它们的训练数据质量将继续成为一个核心关注点。
就目前而言,扩展后的 Genesis 数据集作为一项值得注意的开放式 AI 研究贡献而存在:在很少见于专有环境之外的水平上,它提供了规模、结构与可及性。