Tether расширяет обучающие данные для Open AI с выпуском набора данных QVAC Genesis II

SleepTrader · 2026-04-01T09:14:11+00:00

Discover top fintech news and events!Подпишитесь на рассылку FinTech WeeklyЧитает руководители JP Morgan, Coinbase, Blackrock, Klarna и других Крупное расширение данных для обучения Open AI----------------------------------------------Данные Tether выпустили новую версию своего

SleepTrader

2026-04-01 09:14:11

Откройте для себя самые важные новости и события в финтехе!

Подпишитесь на рассылку FinTech Weekly

Читают руководители в JP Morgan, Coinbase, Blackrock, Klarna и др.

Крупное расширение обучающих данных для Open AI

Tether Data выпустила новую версию своего синтетического учебного набора данных для искусственного интеллекта, существенно увеличив объем и охват открытых материалов для обучения, доступных исследователям по всему миру. Подразделение компании по исследованиям ИИ, QVAC, сообщило, что новый релиз, получивший название QVAC Genesis II, добавляет 107 миллиардов токенов к более раннему набору данных, доводя общий объем до 148 миллиардов токенов.

Расширенный набор данных теперь является крупнейшим публично доступным синтетическим учебным ресурсом, созданным специально для предварительного обучения ИИ. Он охватывает 19 академических направлений и предназначен для улучшения того, как модели учатся рассуждать, объяснять и принимать решения, а не для поверхностного распознавания шаблонов.

Анонс позиционирует релиз как шаг к более прозрачной и доступной разработке ИИ — в то время, когда многие продвинутые наборы данных для обучения остаются запертыми внутри проприетарных систем.

Развитие первого релиза Genesis

QVAC Genesis II опирается на работу, впервые представленную в Genesis I, где основное внимание уделялось созданию валидированного синтетического набора данных, ориентированного на образование, охватывающего базовые дисциплины по естественным наукам, технологиям, инженерии и математике. Этот более ранний релиз заложил основу для генерации структурированных обучающих вопросов, направленных на повышение точности рассуждений.

Новый релиз расширяет охват еще на десять дополнительных областей, включая химию, информатику, статистику, машинное обучение, астрономию, географию, эконометрику и электротехнику. Он также заново рассматривает контент по физике на уровне колледжа, регенерируя его с использованием обновленной методологии, призванной улучшить концептуальную ясность.

Вместе эти два релиза, как описывает QVAC, образуют самый масштабный синтетический учебный набор данных из тех, что были когда-либо предоставлены публике. Набор данных предназначен для использования при предварительном обучении больших языковых моделей и других ИИ-систем, которым требуется структурированный академический материал.

Смещение в том, как генерируются обучающие данные

В основе Genesis II лежит новый метод генерации данных, называемый Option-Level Reasoning. Этот подход отличается от многих существующих техник синтетических данных тем, что фокусируется не только на неверных ответах, но и на верных.

Вместо того чтобы рассматривать правильный ответ как конечный шаг процесса, метод анализирует каждый вариант ответа в вопросе с выбором из нескольких вариантов. Правильные варианты разбираются, чтобы усилить понимание того, почему они верны, а неправильные варианты исследуются, чтобы устранить распространенные заблуждения. Такая структура позволяет моделям учиться причинному рассуждению и логике принятия решений, а не просто связывать вопросы с результатами.

Этот подход дополняет метод Failure Analysis, представленный в Genesis I и сфокусированный на извлечении ценности из ошибок моделей. Вместе эти два метода формируют конвейер, в котором каждый сгенерированный вопрос предназначен для того, чтобы приносить учебную ценность.

Независимые оценки, на которые ссылается QVAC, указывают, что модели, обученные на данных Genesis II, демонстрируют более высокую точность рассуждений и выдают более ясные ответы, чем модели, обученные на более ранних синтетических наборах данных.

Акцент на понимание вместо беглости

Значительная часть текущей экосистемы обучения ИИ опирается на сбор очень больших объемов текста — часто скопированного из публичных источников — чтобы улучшать языковую беглость. Заявленная цель QVAC отличается акцентами. Наборы данных Genesis структурированы так, чтобы обучать модели тому, как рассуждать о проблемах и излагать выводы в ясной форме.

Руководство компании указало, что намерение состоит в том, чтобы выйти за рамки обучающих систем, которые предсказывают наиболее вероятные последовательности текста, — в сторону моделей, демонстрирующих понимание лежащих в основе концепций. Проектирование набора данных делает приоритет ясность, причинность и логику, стремясь уменьшить неоднозначность в выходных данных модели.

Этот подход согласуется с более широкими обсуждениями в исследованиях ИИ о надежности и объяснимости — особенно когда ИИ-системы используются в образовании, науке и контексте поддержки принятия решений.

Открытый доступ для исследователей и разработчиков

Как и в случае с исходным набором данных Genesis, QVAC Genesis II выпускается открыто. Набор данных доступен по лицензии Creative Commons Attribution–NonCommercial 4.0, что позволяет исследователям, академическим учреждениям и независимым разработчикам использовать и изучать данные вне коммерческих условий.

Набор данных и связанные модели размещены на Hugging Face, вместе с подробной технической статьей, описывающей методологию генерации и результаты оценивания. Такая открытая дистрибуция предназначена для снижения барьеров для исследователей, у которых нет доступа к крупным проприетарным наборам данных.

Сохраняя неккоммерческое лицензирование, QVAC стремится поддерживать академические и ориентированные на сообщество исследования, ограничивая при этом прямую коммерческую эксплуатацию.

Поддержка децентрализованной разработки ИИ

Релиз также вписывается в более широкую стратегию, проводимую Tether Data, направленную на развитие децентрализованного ИИ. Компания заявила, что качественные обучающие данные не должны быть ограничены организациями, имеющими доступ к централизованной облачной инфраструктуре.

Предоставляя публичный доступ к крупномасштабным структурированным наборам данных, QVAC стремится обеспечить локальное обучение, экспериментирование и развертывание ИИ-моделей. Такой подход предназначен для поддержки исследовательской среды, где вычислительные ресурсы могут быть ограничены, но интеллектуальные вклад остаются значительными.

Акцент на децентрализации отражает растущий интерес к снижению зависимости от небольшого числа доминирующих ИИ-платформ и формированию более распределенной исследовательской экосистемы.

Роль Tether в исследованиях ИИ

QVAC работает как подразделение по исследованиям ИИ в Tether Data. Хотя Tether широко известна своей ролью в цифровых активах и стейблкоинах, в последние годы компания расширила свою деятельность в области данных и исследований ИИ.

Через QVAC Tether Data сосредоточилась на создании инфраструктуры и ресурсов, поддерживающих открытые исследования. Наборы данных Genesis представляют собой один из самых заметных результатов этого направления, помещая компанию в центр обсуждений по открытой разработке ИИ и обучающих данных, ориентированных на образование.

Эта работа также отражает растущее пересечение между финтех-компаниями и передовыми исследованиями ИИ, поскольку фирмы финансовых технологий все чаще инвестируют в возможности науки о данных и машинного обучения.

Взгляд руководства на релиз

Руководство компании охарактеризовало релиз Genesis II как шаг в сторону от подходов к обучению, которые делают ставку только на объем. Фокус — согласно заявлениям исполнительной команды Tether — заключается в том, чтобы учить ИИ-системы рассуждать и объяснять, а не просто генерировать беглые ответы.

Паоло Ардоино, главный исполнительный директор Tether, подчеркнул, что надежный ИИ должен основываться на понимании того, почему ответы верны. Он указал, что предоставление набора данных в открытом доступе отражает убеждение, что более сильный и более объяснимый ИИ приносит пользу обществу в целом.

Эти позиции перекликаются с опасениями, высказанными исследователями о ограничениях моделей, обученных в первую очередь на неструктурированном тексте.

Образовательный охват и покрытие предметных областей

Совокупные наборы данных Genesis I и II охватывают 19 областей, а контент разрабатывался для уровней среднего и высшего образования. Предметы варьируются от базовой математики и физики до прикладных областей, таких как эконометрика и машинное обучение.

Каждая предметная область включает структурированные вопросы, объяснения и пути рассуждений, призванные отражать то, как концепции преподаются и оцениваются в формальном образовательном контексте. Этот дизайн должен поддерживать задачи предварительного обучения, которые требуют логической согласованности и концептуальной глубины.

Регенерируя и расширяя контент с использованием улучшенных методов, QVAC стремится уточнить то, как образовательный материал представлен в синтетических наборах данных.

Оценивание и качество работы моделей

Согласно внутренним и независимым оценкам, на которые ссылается QVAC, модели, обученные на данных Genesis II, показывают улучшенную производительность в задачах, где требуется больше рассуждений. К ним относятся: ответы на структурированные вопросы, объяснение выводов и избегание неоднозначных или противоречивых ответов.

Результаты оценивания указывают, что сочетание Failure Analysis и Option-Level Reasoning приводит к более стабильным выходным данным. Хотя компания не позиционировала набор данных как самостоятельное решение, она представила его как прочную основу для дальнейшего обучения и тонкой настройки.

Ожидается, что исследователи проведут дополнительные оценки по мере того, как набор данных будет получать более широкое использование в сообществе.

Последствия для открытых исследований ИИ

Релиз такого большого открытого набора данных может повлиять на то, как академические и независимые исследователи подходят к обучению моделей. Доступ к структурированным образовательным данным в таком масштабе традиционно был ограничен организациями с надежным финансированием.

Предоставив альтернативу, QVAC Genesis II может поддержать эксперименты с меньшими моделями, локальные усилия по обучению и исследования методов объяснимого ИИ.

Набор данных также может служить бенчмарком для будущих проектов синтетических данных, которые будут отдавать приоритет качеству рассуждений, а не просто размеру.

Положение в более широкой экосистеме ИИ

QVAC Genesis II входит в экосистему ИИ, отмеченную быстрым развитием и ростом концентрации ресурсов. Многие из самых способных моделей обучаются на проприетарных наборах данных, которые недоступны для проверки или воспроизведения.

Открытые наборы данных вроде Genesis II предлагают альтернативу — обеспечивая прозрачность и общий прогресс. Они также поднимают вопросы о том, как открытые ресурсы могут сосуществовать с коммерческой разработкой ИИ.

Участие компании, укорененной в финтехе и цифровых активах, подчеркивает, что исследования ИИ вызывают интерес у широкого круга отраслей за пределами традиционных технологических компаний.

Доступность и дальнейшие шаги

Полная техническая документация для набора данных под названием “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training” опубликована в research blog QVAC. Доступ к набору данных и связанным моделям доступен через Hugging Face.

QVAC указала, что планирует продолжать уточнять свои методы и расширять образовательное покрытие в будущих релизах. Ожидается, что отзывы исследовательского сообщества сыграют роль в формировании последующих итераций.

Продолжающийся импульс к открытым основам

С Genesis II QVAC подтверждает свою позицию, согласно которой открытые, структурированные обучающие данные необходимы для создания надежных систем ИИ. Релиз отражает точку зрения, что интеллект должен быть основан на рассуждениях и объяснениях, а не только на статистическом сопоставлении.

По мере того как ИИ-системы становятся все более интегрированными в образование, науку и финансовые услуги, включая прикладные решения в финтехе, качество их обучающих данных будет оставаться ключевой проблемой.

Пока что расширенный набор данных Genesis выступает заметным вкладом в открытые исследования ИИ, предлагая масштабы, структуру и доступность на уровне, который редко встречается за пределами проприетарных сред.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
AprilMarketOutlook
335.75K Популярность
#
CryptoMarketsRiseBroadly
62.82K Популярность
#
IsraelStrikesIranBTCPlunges
19.89K Популярность
#
GoldSilverRally
340.48K Популярность
#
ClaudeCode500KCodeLeak
810.02K Популярность

Горячее на Gate Fun
Подробнее

1
per
pear
РК:$2.3KДержатели:2
0.16%
2
888888888888
爆仓终结币
РК:$2.28KДержатели:1
0.00%
3
bababoyi
bababoyi
РК:$2.26KДержатели:1
0.00%
4
APRIL
APRILIA
РК:$2.26KДержатели:1
0.00%
5
mtt
mtt sports
РК:$0.1Держатели:1
0.00%

Закрепить

Карта сайта

Tether расширяет обучающие данные для Open AI с выпуском набора данных QVAC Genesis II

Крупное расширение обучающих данных для Open AI

Развитие первого релиза Genesis

Смещение в том, как генерируются обучающие данные

Акцент на понимание вместо беглости

Открытый доступ для исследователей и разработчиков

Поддержка децентрализованной разработки ИИ

Роль Tether в исследованиях ИИ

Взгляд руководства на релиз

Образовательный охват и покрытие предметных областей

Оценивание и качество работы моделей

Последствия для открытых исследований ИИ

Положение в более широкой экосистеме ИИ

Доступность и дальнейшие шаги

Продолжающийся импульс к открытым основам

Популярные темы

AprilMarketOutlook

CryptoMarketsRiseBroadly

IsraelStrikesIranBTCPlunges

GoldSilverRally

ClaudeCode500KCodeLeak

Горячее на Gate Fun

per

pear

888888888888

爆仓终结币

bababoyi

bababoyi

APRIL

APRILIA

mtt

mtt sports

Закрепить