Tether расширяет обучающие данные для Open AI с выпуском набора данных QVAC Genesis II

SleepTrader · 2026-03-30T16:31:00+00:00

Discover top fintech news and events!Подпишитесь на рассылку FinTech WeeklyЧитает руководители JP Morgan, Coinbase, Blackrock, Klarna и других Крупное расширение данных для обучения Open AI----------------------------------------------Данные Tether выпустили новую версию своего

SleepTrader

2026-03-30 16:31:00

Откройте для себя лучшие новости и события в финтехе!

Подпишитесь на рассылку FinTech Weekly

Читают руководители в JP Morgan, Coinbase, Blackrock, Klarna и др.

Крупное расширение обучающих данных Open AI

Tether Data выпустила новую версию своего синтетического обучающего набора данных для искусственного интеллекта, существенно увеличив объем и охват открытых материалов для обучения, доступных исследователям по всему миру. Подразделение AI-исследований компании, QVAC, сообщило, что новый релиз под названием QVAC Genesis II добавляет 107 миллиардов токенов к предыдущему набору, доводя общий объем до 148 миллиардов токенов.

Расширенный набор данных теперь является крупнейшим общедоступным синтетическим образовательным ресурсом, предназначенным специально для AI-предобучения. Он охватывает 19 академических доменов и призван улучшать то, как модели учатся рассуждать, объяснять и принимать решения, а не просто распознавать закономерности на поверхностном уровне.

Объявление позиционирует этот релиз как шаг к более прозрачной и доступной разработке AI — в то время, когда многие продвинутые обучающие наборы данных остаются запертыми в проприетарных системах.

Развитие первого релиза Genesis

QVAC Genesis II опирается на работу, впервые представленную вместе с Genesis I, которая была сосредоточена на создании верифицированного синтетического набора данных, ориентированного на образование, охватывающего базовые дисциплины по естественным наукам, технологиям, инженерии и математике. Тот ранний релиз заложил основу для генерации структурированных обучающих вопросов, нацеленных на повышение точности рассуждений.

Новый релиз расширяет охват в десять дополнительных областей, включая химию, информатику, статистику, машинное обучение, астрономию, географию, эконометрику и электротехнику. Он также возвращается к контенту по физике на уровне колледжа, регенерируя его с использованием обновленной методологии, разработанной для улучшения концептуальной ясности.

Вместе эти два релиза составляют то, что QVAC описывает как самый масштабный синтетический образовательный набор данных из тех, что до сих пор были доступны публике. Набор данных предназначен для использования при предобучении больших языковых моделей и других AI-систем, которым требуется структурированный академический материал.

Смещение в том, как генерируются обучающие данные

В основе Genesis II лежит новый метод генерации данных, который называется Option-Level Reasoning. Этот подход отличается от многих существующих техник синтетических данных тем, что фокусируется не только на неправильных ответах, но и на правильных.

Вместо того чтобы рассматривать корректный ответ как финал процесса, метод анализирует каждый вариант ответа в вопросе с множественным выбором. Правильные варианты разбираются, чтобы усилить понимание того, почему они верны, а неправильные варианты изучаются, чтобы устранить распространенные заблуждения. Такая структура позволяет моделям учиться причинному рассуждению и логике принятия решений, а не просто связывать вопросы с исходами.

Этот подход дополняет метод Failure Analysis, представленый в Genesis I и сосредоточенный на извлечении ценности из ошибок модели. Вместе эти два метода формируют конвейер, в котором каждый сгенерированный вопрос предназначен для того, чтобы приносить учебную ценность.

Независимые оценки, на которые ссылается QVAC, указывают, что модели, обученные на данных Genesis II, демонстрируют более высокую точность рассуждений и выдают более ясные ответы, чем те, что обучались на более ранних синтетических наборах данных.

Акцент на понимании, а не на беглости

Значительная часть текущей экосистемы обучения AI опирается на сбор очень больших объемов текста — зачастую из открытых источников, — чтобы улучшать языковую беглость. Заявленная цель QVAC отличается по акцентам. Наборы данных Genesis структурированы так, чтобы учить модели тому, как рассуждать через задачи и объяснять выводы понятным образом.

Руководство компании указывало, что намерение состоит в том, чтобы выйти за рамки обучающих систем, которые предсказывают наиболее вероятные последовательности текста, и перейти к моделям, демонстрирующим понимание лежащих в основе концепций. Дизайн набора данных отдает приоритет ясности, причинности и логике, стремясь уменьшить неоднозначность в выходных данных модели.

Этот подход согласуется с более широкими обсуждениями в исследованиях AI о надежности и объяснимости — особенно по мере того, как AI-системы используются в образовании, науке и в сценариях поддержки принятия решений.

Открытый доступ для исследователей и разработчиков

Как и в случае с исходным набором данных Genesis, QVAC Genesis II выпускается открыто. Набор данных доступен по лицензии Creative Commons Attribution–NonCommercial 4.0, что позволяет исследователям, академическим учреждениям и независимым разработчикам использовать и изучать данные за пределами коммерческих сценариев.

Набор данных и связанные модели размещены на Hugging Face, вместе с подробной технической статьей, описывающей методологию генерации и результаты оценивания. Такая открытая дистрибуция предназначена для снижения барьеров для исследователей, у которых нет доступа к крупным проприетарным наборам данных.

Сохраняя некоммерческое лицензирование, QVAC стремится поддерживать академические и ориентированные на сообщество исследования, ограничивая при этом прямую коммерческую эксплуатацию.

Поддержка децентрализованной разработки AI

Релиз также вписывается в более широкую стратегию, которую проводит Tether Data, чтобы поощрять децентрализованную разработку AI. Компания заявила, что высококачественные обучающие данные не должны быть ограничены организациями, имеющими доступ к централизованной облачной инфраструктуре.

Предоставляя публично доступными наборы данных большого масштаба и со структурой, QVAC стремится дать возможность локального обучения, экспериментов и развертывания AI-моделей. Этот подход предназначен поддерживать исследовательские среды, где вычислительные ресурсы могут быть ограничены, но вклад в интеллектуальном плане остается существенным.

Акцент на децентрализации отражает растущий интерес к снижению зависимости от небольшого числа доминирующих AI-платформ и развитию более распределенной исследовательской экосистемы.

Роль Tether в AI-исследованиях

QVAC работает как подразделение AI-исследований Tether Data. Хотя Tether широко известна своей ролью в цифровых активах и стейблкоинах, в последние годы компания расширила свою деятельность в направлении данных и AI-исследований.

Через QVAC Tether Data сосредоточилась на создании инфраструктуры и ресурсов, поддерживающих открытые исследования. Наборы данных Genesis являются одним из наиболее заметных результатов этой работы, позиционируя компанию в обсуждениях вокруг открытой разработки AI и обучающих наборов данных, ориентированных на образование.

Это направление также отражает растущую взаимосвязь между финтех-компаниями и продвинутыми AI-исследованиями: финансовые технологические фирмы все чаще инвестируют в возможности data science и машинного обучения.

Взгляд руководства на релиз

Руководство компании охарактеризовало релиз Genesis II как шаг в сторону от подходов к обучению, которые делают упор только на объем. Фокус, согласно заявлениям исполнительной команды Tether, состоит в том, чтобы обучать AI-системы тому, как рассуждать и объяснять, а не просто генерировать беглые ответы.

Паоло Ардоино, главный исполнительный директор Tether, подчеркнул, что надежный AI должен быть основан на понимании того, почему ответы верны. Он также указал, что публикация набора данных в открытом доступе отражает убеждение в том, что более сильный, лучше объяснимый AI приносит пользу обществу в целом.

Эти взгляды перекликаются с озабоченностями, высказанными исследователями относительно ограничений моделей, обученных в первую очередь на неструктурированном тексте.

Образовательный охват и покрытие доменов

Суммарные наборы данных Genesis I и II охватывают 19 доменов, а контент рассчитан на уровни среднего и высшего образования. Темы варьируются от базовой математики и физики до прикладных областей, таких как эконометрика и машинное обучение.

Каждый домен включает структурированные вопросы, объяснения и траектории рассуждений, предназначенные для отражения того, как концепции преподаются и оцениваются в формальной образовательной среде. Этот дизайн призван поддерживать задачи предобучения, требующие логической согласованности и концептуальной глубины.

Регенерируя и расширяя контент с использованием улучшенных методов, QVAC стремится уточнить, как образовательный материал представлен в синтетических наборах данных.

Оценка и производительность модели

Согласно внутренним и независимым оценкам, на которые ссылается QVAC, модели, обученные на данных Genesis II, показывают улучшенную производительность в задачах, где требуется много рассуждений. К ним относятся: ответы на структурированные вопросы, объяснение выводов и избегание неоднозначных или противоречивых ответов.

Результаты оценивания показывают, что сочетание Failure Analysis и Option-Level Reasoning приводит к более последовательным выходным данным. Хотя компания не позиционирует набор данных как самостоятельное решение, она представила его как сильную основу для дальнейшего обучения и донастройки.

Ожидается, что исследователи проведут дополнительные оценивания по мере того, как набор данных получит более широкое использование в сообществе.

Последствия для исследований Open AI

Релиз такого большого открытого набора данных может повлиять на то, как академические и независимые исследователи подходят к обучению моделей. Доступ к структурированным образовательным данным в таком масштабе традиционно был ограничен организациями с хорошим финансированием.

Предоставляя альтернативу, QVAC Genesis II может поддержать эксперименты с меньшими моделями, локальные усилия по обучению и исследования методов объяснимого AI.

Набор данных также может служить ориентиром для будущих проектов синтетических данных, которые будут отдавать приоритет качеству рассуждений, а не просто масштабу.

Позиция в более широкой AI-экосистеме

QVAC Genesis II входит в AI-экосистему, отмеченную быстрым развитием и растущей концентрацией ресурсов. Многие из самых способных моделей обучаются на проприетарных наборах данных, которые недоступны для проверки или воспроизведения.

Открытые наборы данных вроде Genesis II предлагают контрапункт, позволяя обеспечить прозрачность и общий прогресс. Они также поднимают вопросы о том, как открытые ресурсы могут сосуществовать с коммерческой разработкой AI.

Участие компании, укорененной в финтехе и цифровых активах, подчеркивает, что AI-исследования вызывают интерес в самых разных отраслях — помимо традиционных технологических компаний.

Доступность и следующие шаги

Полная техническая документация для набора данных, озаглавленная “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” опубликована в исследовательском блоге QVAC. Доступ к набору данных и связанным моделям доступен через Hugging Face.

QVAC указала, что планирует продолжать уточнять свои методы и расширять образовательное покрытие в будущих релизах. Ожидается, что обратная связь от исследовательского сообщества будет играть роль в формировании последующих итераций.

Продолжительный импульс к открытым основам

С Genesis II QVAC подтверждает свою позицию, что открытые, структурированные обучающие данные необходимы для создания надежных AI-систем. Релиз отражает взгляд, что интеллект должен быть основан на рассуждении и объяснении, а не только на статистической ассоциации.

По мере того как AI-системы все больше интегрируются в образование, науку и финансовые услуги, включая финтех-приложения, качество их обучающих данных будет оставаться центральной проблемой.

Пока что расширенный набор данных Genesis является заметным вкладом в открытые AI-исследования, обеспечивая масштаб, структуру и доступность на уровне, редко встречающемся за пределами проприетарных сред.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateGoldenTouch
67.78K Популярность
#
CryptoMarketsRiseBroadly
31.78K Популярность
#
IsraelStrikesIranBTCPlunges
19.32K Популярность
#
PowellDovishRemarksReviveRateCutHopes
2.82M Популярность
#
TrumpSignalsPossibleCeasefire
409.07K Популярность

Горячее на Gate Fun
Подробнее

1
mb
macbook
РК:$2.27KДержатели:2
0.00%
2
TBKB
特不靠谱
РК:$2.37KДержатели:2
1.04%
3
ch
chill
РК:$2.24KДержатели:1
0.00%
4
MIP
MIP
РК:$2.24KДержатели:1
0.00%
5
Usdc
Usdc
РК:$2.25KДержатели:1
0.00%

Закрепить

Карта сайта

Tether расширяет обучающие данные для Open AI с выпуском набора данных QVAC Genesis II

Крупное расширение обучающих данных Open AI

Развитие первого релиза Genesis

Смещение в том, как генерируются обучающие данные

Акцент на понимании, а не на беглости

Открытый доступ для исследователей и разработчиков

Поддержка децентрализованной разработки AI

Роль Tether в AI-исследованиях

Взгляд руководства на релиз

Образовательный охват и покрытие доменов

Оценка и производительность модели

Последствия для исследований Open AI

Позиция в более широкой AI-экосистеме

Доступность и следующие шаги

Продолжительный импульс к открытым основам

Популярные темы

GateGoldenTouch

CryptoMarketsRiseBroadly

IsraelStrikesIranBTCPlunges

PowellDovishRemarksReviveRateCutHopes

TrumpSignalsPossibleCeasefire

Горячее на Gate Fun

mb

macbook

TBKB

特不靠谱

ch

chill

MIP

MIP

Usdc

Usdc

Закрепить