Tether расширяет обучающие данные для Open AI с выпуском набора данных QVAC Genesis II

SleepTrader

2026-04-03 08:56:09

Откройте для себя лучшие новости и события в финтехе!

Подпишитесь на рассылку FinTech Weekly

Читают руководители JP Morgan, Coinbase, Blackrock, Klarna и другие

Крупное расширение обучающих данных для Open AI

Tether Data выпустила новую версию своего синтетического образовательного набора данных для искусственного интеллекта, существенно увеличив объем и охват открытых учебных материалов, доступных исследователям по всему миру. Подразделение исследований ИИ компании, QVAC, сообщило, что новый выпуск под названием QVAC Genesis II добавляет 107 миллиардов токенов к ее более раннему набору данных, доводя общий объем до 148 миллиардов токенов.

Расширенный набор данных теперь является крупнейшим публично доступным синтетическим образовательным ресурсом, созданным специально для предварительного обучения ИИ. Он охватывает 19 академических направлений и предназначен для улучшения того, как модели учатся рассуждать, объяснять и принимать решения, а не для распознавания поверхностных шаблонов.

Объявление позиционирует выпуск как шаг к более прозрачной и доступной разработке ИИ — в то время, когда многие продвинутые обучающие наборы данных остаются запертыми в проприетарных системах.

Развитие первого релиза Genesis

QVAC Genesis II опирается на работу, впервые представленную с Genesis I. Тогда фокус был на создании валидированного синтетического набора данных, ориентированного на образование и охватывающего базовые дисциплины из области естественных наук, технологий, инженерии и математики. Тот ранний выпуск заложил основу для генерации структурированных обучающих вопросов, направленных на повышение точности рассуждений.

Новый релиз расширяет покрытие еще на десять дополнительных областей, включая химию, информатику, статистику, машинное обучение, астрономию, географию, эконометрику и электротехнику. Также он вновь рассматривает физику на уровне колледжа, регенерируя контент с использованием обновленной методологии, разработанной для улучшения концептуальной ясности.

Вместе эти два выпуска образуют то, что QVAC описывает как самый масштабный синтетический образовательный набор данных на сегодняшний день, предоставленный публике. Набор данных предназначен для использования при предварительном обучении больших языковых моделей и других ИИ-систем, которым требуется структурированный академический материал.

Сдвиг в том, как генерируются обучающие данные

В основе Genesis II лежит новый метод генерации данных, называемый Option-Level Reasoning. Этот подход отличается от многих существующих техник синтетических данных тем, что фокусируется не только на неверных ответах, но и на верных.

Вместо того чтобы рассматривать корректный ответ как конечную точку процесса, метод анализирует каждый вариант ответа в вопросе с множественным выбором. Правильные варианты разбираются так, чтобы подчеркнуть, почему они верны, тогда как неправильные варианты рассматриваются для проработки распространенных заблуждений. Такая структура позволяет моделям учиться причинному рассуждению и логике принятия решений, а не просто связывать вопросы с результатами.

Этот подход дополняет метод Failure Analysis, представленный в Genesis I, который был ориентирован на извлечение ценности из ошибок модели. Вместе эти два метода образуют конвейер, где каждый сгенерированный вопрос создается так, чтобы вносить учебную ценность.

Независимые оценки, на которые ссылается QVAC, показывают, что модели, обученные на данных Genesis II, демонстрируют более высокую точность рассуждений и выдают более ясные ответы, чем модели, обученные на более ранних синтетических наборах данных.

Акцент на понимании, а не на беглости

Значительная часть нынешней экосистемы обучения ИИ опирается на сбор очень больших объемов текста, часто извлеченного из публичных источников, чтобы повысить языковую беглость. Заявленная цель QVAC отличается по акцентам. Наборы данных Genesis структурированы так, чтобы учить модели тому, как рассуждать над задачами и ясно объяснять выводы.

Руководство компании указывало, что намерение состоит в том, чтобы выйти за рамки систем обучения, которые предсказывают наиболее вероятные последовательности текста, — в сторону моделей, демонстрирующих понимание лежащих в основе концепций. Дизайн набора данных делает приоритетом ясность, причинность и логику, стремясь снизить неоднозначность в выводах моделей.

Такой подход согласуется с более широкими обсуждениями в исследованиях ИИ о надежности и объяснимости — особенно по мере того, как ИИ-системы используются в образовании, науке и в контекстах поддержки принятия решений.

Открытый доступ для исследователей и разработчиков

Как и в случае с исходным набором данных Genesis, QVAC Genesis II выпускается открыто. Набор данных доступен по лицензии Creative Commons Attribution–NonCommercial 4.0, что позволяет исследователям, академическим учреждениям и независимым разработчикам использовать и изучать данные вне коммерческих сценариев.

Набор данных и связанные с ним модели размещены на Hugging Face, а также вместе с подробной технической статьей, описывающей методологию генерации и результаты оценивания. Эта открытая дистрибуция предназначена для снижения барьеров для исследователей, которые не имеют доступа к крупным проприетарным наборам данных.

Сохраняя некоммерческое лицензирование, QVAC стремится поддерживать академические исследования и исследования, ориентированные на сообщество, при этом ограничивая прямую коммерческую эксплуатацию.

Поддержка децентрализованной разработки ИИ

Выпуск также вписывается в более широкую стратегию, которую Tether Data проводит для поощрения децентрализованной разработки ИИ. Компания заявила, что высококачественные обучающие данные не должны быть ограничены организациями, имеющими доступ к централизованной облачной инфраструктуре.

Сделав публично доступными крупномасштабные структурированные наборы данных, QVAC стремится дать возможность локального обучения, экспериментирования и развертывания ИИ-моделей. Этот подход предназначен для поддержки исследовательских сред, где вычислительные ресурсы могут быть ограничены, но при этом интеллектуальный вклад остается значительным.

Акцент на децентрализации отражает растущий интерес к снижению зависимости от небольшого числа доминирующих платформ ИИ и к развитию более распределенной исследовательской экосистемы.

Роль Tether в исследованиях ИИ

QVAC работает как подразделение исследований ИИ Tether Data. Хотя Tether широко известна своей ролью в цифровых активах и стейблкоинах, в последние годы компания расширила свою деятельность на исследования данных и ИИ.

Через QVAC Tether Data сосредоточилась на создании инфраструктуры и ресурсов, поддерживающих открытые исследования. Наборы данных Genesis являются одним из самых заметных результатов этого усилия, позиционируя компанию в обсуждениях вокруг разработки Open AI и обучающих данных, ориентированных на образование.

Эта работа также отражает растущее пересечение между финтех-компаниями и передовыми исследованиями ИИ: по мере того как финансовые технологические компании все чаще инвестируют в возможности науки о данных и машинного обучения.

Взгляд руководства на выпуск

Руководство компании представило выпуск Genesis II как шаг от подходов к обучению, которые делают упор только на объем. Согласно заявлениям из исполнительной команды Tether, фокус заключается в том, чтобы учить ИИ-системы рассуждать и объяснять, а не просто генерировать ответы, звучащие гладко.

Паоло Ардоино, генеральный директор Tether, подчеркнул, что надежный ИИ должен основываться на понимании того, почему ответы верны. Он указал, что открытое предоставление набора данных отражает убеждение в том, что более сильный и более объяснимый ИИ приносит пользу обществу в целом.

Эти взгляды перекликаются с опасениями, которые высказывают исследователи относительно ограничений моделей, обученных в первую очередь на неструктурированном тексте.

Образовательный охват и покрытие доменов

Совокупные наборы данных Genesis I и II охватывают 19 доменов, при этом контент подготовлен на уровнях среднего и высшего образования. Предметы варьируются от базовой математики и физики до прикладных областей, таких как эконометрика и машинное обучение.

Каждый домен включает структурированные вопросы, объяснения и траектории рассуждений, предназначенные для того, чтобы отражать то, как концепции преподаются и оцениваются в формальных условиях образования. Такой дизайн призван поддерживать задачи предварительного обучения, которым требуются логическая согласованность и концептуальная глубина.

Регенерируя и расширяя контент с использованием улучшенных методов, QVAC стремится уточнить, как образовательный материал представлен в синтетических наборах данных.

Оценка и производительность моделей

Согласно внутренним и независимым оценкам, на которые ссылается QVAC, модели, обученные на данных Genesis II, демонстрируют улучшенную производительность в задачах, где много рассуждений. К ним относятся ответы на структурированные вопросы, объяснение выводов и избегание неоднозначных или противоречивых ответов.

Результаты оценивания показывают, что сочетание Failure Analysis и Option-Level Reasoning приводит к более последовательным результатам. Хотя компания не позиционировала набор данных как самостоятельное решение, она представила его как надежную основу для дальнейшего обучения и доработок.

Ожидается, что исследователи будут проводить дополнительные оценки по мере того, как набор данных получит более широкое использование в сообществе.

Последствия для Open AI-исследований

Выпуск такого большого открытого набора данных может повлиять на то, как академические и независимые исследователи подходят к обучению моделей. Доступ к структурированным образовательным данным в таком масштабе традиционно был ограничен организациями, имеющими хорошее финансирование.

Предоставив альтернативу, QVAC Genesis II может поддержать эксперименты с меньшими моделями, локальные усилия по обучению и исследования методов объяснимого ИИ.

Набор данных также может служить бенчмарком для будущих проектов синтетических данных, которые будут отдавать приоритет качеству рассуждений, а не просто размеру.

Положение в более широкой экосистеме ИИ

QVAC Genesis II входит в экосистему ИИ, характеризующуюся быстрым развитием и растущей концентрацией ресурсов. Многие из самых способных моделей обучаются на проприетарных наборах данных, которые недоступны для проверки или воспроизведения.

Открытые наборы данных вроде Genesis II предлагают контрапункт, обеспечивая прозрачность и общий прогресс. Они также поднимают вопросы о том, как открытые ресурсы могут сосуществовать с коммерческой разработкой ИИ.

Участие компании, имеющей корни в финтехе и цифровых активах, подчеркивает, что исследования ИИ привлекают внимание самых разных отраслей, выходя за рамки традиционных технологических компаний.

Доступность и дальнейшие шаги

Полная техническая документация для набора данных, озаглавленная “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” опубликована в исследовательском блоге QVAC. Доступ к набору данных и связанным моделям доступен через Hugging Face.

QVAC указала, что планирует продолжать совершенствовать свои методы и расширять образовательное покрытие в будущих выпусках. Ожидается, что обратная связь от исследовательского сообщества будет играть роль в формировании последующих итераций.

Продолжающийся импульс к открытым основам

С Genesis II QVAC закрепляет свою позицию, согласно которой открытые, структурированные обучающие данные необходимы для построения надежных ИИ-систем. Выпуск отражает точку зрения, что интеллект должен основываться на рассуждении и объяснении, а не только на статистической ассоциации.

По мере того как ИИ-системы все более интегрируются в образование, науку и финансовые услуги, включая приложения в финтехе, качество их обучающих данных будет оставаться центральной проблемой.

Пока что расширенный набор данных Genesis представляет собой заметный вклад в Open AI-исследования, предлагая масштаб, структуру и доступность на уровне, который редко встречается за пределами проприетарных сред.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GateSquareAprilPostingChallenge
170.09K Популярность
#
MarchNonfarmPayrollsIncoming
218.51K Популярность
#
IsraelStrikesIranBTCPlunges
21.53K Популярность
#
CryptoMarketSeesVolatility
112.09K Популярность
#
OilPricesRise
212.08K Популярность

Горячее на Gate Fun
Подробнее

1
iranht
"Iran has teeth".
РК:$0.1Держатели:1
0.00%
2
FUN
FUN COIN
РК:$2.23KДержатели:1
0.00%
3
Token
词元
РК:$2.23KДержатели:1
0.00%
4
TMP
特没谱
РК:$2.23KДержатели:1
0.00%
5
BHR
黑马纪元
РК:$2.26KДержатели:2
0.07%

Закрепить

Карта сайта

Tether расширяет обучающие данные для Open AI с выпуском набора данных QVAC Genesis II

Крупное расширение обучающих данных для Open AI

Развитие первого релиза Genesis

Сдвиг в том, как генерируются обучающие данные

Акцент на понимании, а не на беглости

Открытый доступ для исследователей и разработчиков

Поддержка децентрализованной разработки ИИ

Роль Tether в исследованиях ИИ

Взгляд руководства на выпуск

Образовательный охват и покрытие доменов

Оценка и производительность моделей

Последствия для Open AI-исследований

Положение в более широкой экосистеме ИИ

Доступность и дальнейшие шаги

Продолжающийся импульс к открытым основам

Популярные темы

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Горячее на Gate Fun

iranht

"Iran has teeth".

FUN

FUN COIN

Token

词元

TMP

特没谱

BHR

黑马纪元

Закрепить