Tether расширяет обучающие данные для Open AI с выпуском набора данных QVAC Genesis II

SleepTrader

2026-03-28 19:18:33

Откройте для себя главные новости и события в финтехе!

Подпишитесь на рассылку FinTech Weekly

Читается руководителями в JP Morgan, Coinbase, Blackrock, Klarna и других

Крупное расширение в обучающих данных Open AI

Tether Data выпустила новую версию своего синтетического образовательного набора данных для искусственного интеллекта, значительно увеличив объем и охват открытых учебных материалов, доступных исследователям по всему миру. Исследовательское подразделение компании по ИИ, QVAC, объявило, что новый релиз, названный QVAC Genesis II, добавляет 107 миллиардов токенов к предыдущему набору данных, увеличив общий размер до 148 миллиардов токенов.

Расширенный набор данных теперь является самым большим синтетическим образовательным ресурсом, доступным для общественности, который специально разработан для предварительного обучения ИИ. Он охватывает 19 академических областей и предназначен для улучшения того, как модели обучаются рассуждению, объяснению и принятию решений, а не просто распознаванию поверхностных паттернов.

Это объявление позиционирует релиз как шаг к более прозрачной и доступной разработке ИИ в то время, когда многие передовые учебные наборы данных остаются запертыми в проприетарных системах.

Опираясь на первый релиз Genesis

QVAC Genesis II основывается на работе, впервые представленное с Genesis I, который сосредоточился на создании валидированного синтетического набора данных, ориентированного на образование, охватывающего основные науки, технологии, инженерию и математику. Тот ранний релиз установил рамки для генерации структурированных учебных вопросов, направленных на улучшение точности рассуждений.

Новый релиз расширяет охват на десять дополнительных областей, включая химию, информатику, статистику, машинное обучение, астрономию, географию, эконометрику и электротехнику. Он также пересматривает содержание физики на уровне колледжа, регенерируя его с использованием обновленной методологии, предназначенной для улучшения концептуальной ясности.

Вместе два релиза формируют то, что QVAC описывает как самый обширный синтетический образовательный набор данных, когда-либо доступный для общественности. Набор данных предназначен для использования в предварительном обучении крупных языковых моделей и других систем ИИ, которые требуют структурированного академического материала.

Сдвиг в том, как генерируются учебные данные

В центре Genesis II находится новый метод генерации данных, известный как Рассуждение на уровне опций. Этот подход отличается от многих существующих синтетических методов данных, сосредоточившись не только на неправильных ответах, но и на правильных.

Вместо того чтобы рассматривать правильный ответ как завершение процесса, метод анализирует каждый вариант ответа в вопросе с множественным выбором. Правильные варианты разбиваются на части, чтобы укрепить понимание, почему они правильные, в то время как неправильные варианты исследуются для устранения распространенных заблуждений. Эта структура позволяет моделям обучаться причинному рассуждению и логике принятия решений, а не просто связывать вопросы с результатами.

Этот подход дополняет метод Анализа ошибок, представленный в Genesis I, который сосредоточился на извлечении ценности из ошибок модели. Вместе два метода формируют поток, в котором каждый сгенерированный вопрос предназначен для внесения учебной ценности.

Независимые оценки, упомянутые QVAC, указывают на то, что модели, обученные на данных Genesis II, демонстрируют более высокую точность рассуждений и дают более четкие ответы, чем те, которые обучались на более ранних синтетических наборах данных.

Упор на понимание, а не на беглость

Большая часть текущей экосистемы обучения ИИ полагается на сбор очень больших объемов текста, часто собранного из публичных источников, для улучшения языковой беглости. Заявленная цель QVAC отличается по акценту. Наборы данных Genesis структурированы таким образом, чтобы обучить модели, как рассуждать по проблемам и объяснять выводы понятным образом.

Руководство компании указало, что намерение заключается в том, чтобы перейти от обучения систем, которые предсказывают вероятные текстовые последовательности, к моделям, которые демонстрируют понимание основных концепций. Дизайн набора данных приоритизирует ясность, причинность и логику, стремясь уменьшить неоднозначность в выходных данных модели.

Этот подход соответствует более широким обсуждениям в исследениях ИИ о надежности и объяснимости, особенно по мере использования систем ИИ в образовании, науке и контекстах поддержки принятия решений.

Открытый доступ для исследователей и разработчиков

Как и в оригинальном наборе данных Genesis, QVAC Genesis II выпускается открыто. Набор данных доступен под лицензией Creative Commons Attribution–NonCommercial 4.0, позволяя исследователям, академическим учреждениям и независимым разработчикам использовать и изучать данные вне коммерческих условий.

Набор данных и сопутствующие модели размещены на Hugging Face, наряду с подробной технической статьей, описывающей методологию генерации и результаты оценки. Это открытое распределение направлено на снижение барьеров для исследователей, которые не имеют доступа к большим проприетарным наборам данных.

Поддерживая некоммерческое лицензирование, QVAC стремится поддерживать академические и общественные исследования, ограничивая прямую коммерческую эксплуатацию.

Поддержка децентрализованного развития ИИ

Релиз также вписывается в более широкую стратегию, проводимую Tether Data, чтобы поощрять децентрализованное развитие ИИ. Компания заявила, что качественные учебные данные не должны ограничиваться организациями с доступом к централизованной облачной инфраструктуре.

Публикуя крупномасштабные структурированные наборы данных, QVAC стремится обеспечить локальное обучение, эксперименты и развертывание моделей ИИ. Этот подход предназначен для поддержки исследовательских сред, где вычислительные ресурсы могут быть ограничены, но интеллектуальные вклады остаются значительными.

Упор на децентрализацию отражает растущий интерес к снижению зависимости от небольшого числа доминирующих платформ ИИ и содействию более распределенной исследовательской экосистеме.

Роль Tether в исследениях ИИ

QVAC функционирует как исследовательское подразделение ИИ Tether Data. Хотя Tether широко известна своей ролью в цифровых активах и стейблкоинах, компания в последние годы расширила свою деятельность в области данных и исследований ИИ.

Через QVAC Tether Data сосредоточилась на создании инфраструктуры и ресурсов, которые поддерживают открытые исследования. Наборы данных Genesis представляют собой один из самых заметных результатов этих усилий, позиционируя компанию в обсуждениях вокруг открытой разработки ИИ и ориентированных на образование учебных данных.

Эта работа также отражает растущее пересечение между финтех-компаниями и передовыми исследованиями ИИ, поскольку финансовые технологии все больше инвестируют в науку о данных и возможности машинного обучения.

Перспектива руководства по релизу

Руководство компании охарактеризовало релиз Genesis II как шаг от обучающих подходов, которые приоритизируют только объем. Фокус, согласно заявлениям исполнительной команды Tether, заключается в обучении систем ИИ, как рассуждать и объяснять, а не просто генерировать беглые ответы.

Паоло Ардоино, генеральный директор Tether, подчеркнул, что надежный ИИ должен основываться на понимании, почему ответы правильные. Он указал, что открытый доступ к набору данных отражает убеждение, что более сильный и более объяснимый ИИ приносит пользу обществу в целом.

Эти взгляды перекликаются с обеспокоенностью исследователей по поводу ограничений моделей, обученных в основном на неструктурированном тексте.

Образовательный охват и покрытие доменов

Скомбинированные наборы данных Genesis I и II охватывают 19 доменов, с контентом, разработанным на уровнях среднего и высшего образования. Темы варьируются от основ математики и физики до прикладных областей, таких как эконометрика и машинное обучение.

Каждый домен включает структурированные вопросы, объяснения и пути рассуждений, предназначенные для отражения того, как концепции преподавались и оценивались в формальных образовательных условиях. Этот дизайн предназначен для поддержки задач предварительного обучения, которые требуют логической согласованности и концептуальной глубины.

Регенерируя и расширяя контент с помощью улучшенных методов, QVAC стремится уточнить, как образовательный материал представляется в синтетических наборах данных.

Оценка и производительность моделей

Согласно внутренним и независимым оценкам, на которые ссылается QVAC, модели, обученные на данных Genesis II, демонстрируют улучшенные результаты в задачах с высоким уровнем рассуждений. К ним относятся ответы на структурированные вопросы, объяснение выводов и избегание неоднозначных или противоречивых ответов.

Результаты оценки предполагают, что сочетание Анализа ошибок и Рассуждений на уровне опций приводит к более согласованным выходным данным. Хотя компания не позиционирует набор данных как самостоятельное решение, она представила его как прочную основу для дальнейшего обучения и тонкой настройки.

Ожидается, что исследователи проведут дополнительные оценки по мере более широкого использования набора данных в сообществе.

Последствия для открытых исследований ИИ

Релиз такого большого открытого набора данных может повлиять на то, как академические и независимые исследователи подходят к обучению моделей. Доступ к структурированным образовательным данным в таком масштабе традиционно был ограничен хорошо финансируемыми организациями.

Предоставляя альтернативу, QVAC Genesis II может поддержать эксперименты с меньшими моделями, локализованные усилия по обучению и исследования методов объяснимого ИИ.

Набор данных также может служить стандартом для будущих проектов синтетических данных, которые приоритизируют качество рассуждений над простым объемом.

Позиция в более широкой экосистеме ИИ

QVAC Genesis II вступает в экосистему ИИ, отмеченную быстрым развитием и увеличивающейся концентрацией ресурсов. Многие из самых способных моделей обучаются на проприетарных наборах данных, которые недоступны для анализа или воспроизведения.

Открытые наборы данных, такие как Genesis II, предлагают контраргумент, позволяя прозрачность и общий прогресс. Они также поднимают вопросы о том, как открытые ресурсы могут сосуществовать с коммерческой разработкой ИИ.

Участие компании, укоренившейся в финтехе и цифровых активах, подчеркивает, как исследования ИИ привлекают интерес из самых разных отраслей, выходящих за рамки традиционных технологических компаний.

Доступность и следующие шаги

Полная техническая документация для набора данных, озаглавленная “QVAC Genesis II: Расширение самого большого и самого качественного многодоменного образовательного синтетического набора данных для предварительного обучения,” была опубликована в блоге исследований QVAC. Доступ к набору данных и связанным моделям доступен через Hugging Face.

QVAC сообщила, что планирует продолжать уточнять свои методы и расширять образовательное покрытие в будущих релизах. Ожидается, что отзывы от исследовательского сообщества сыграют роль в формировании последующих итераций.

Продолжающееся стремление к открытым основам

С Genesis II QVAC укрепляет свою позицию о том, что открытые, структурированные учебные данные необходимы для создания надежных систем ИИ. Релиз отражает мнение о том, что интеллект должен базироваться на рассуждении и объяснении, а не только на статистической ассоциации.

По мере того как системы ИИ становятся все более интегрированными в образование, науку и финансовые услуги, включая финтех-приложения, качество их учебных данных останется центральной проблемой.

На данный момент расширенный набор данных Genesis выступает как заметный вклад в открытые исследования ИИ, предлагая масштаб, структуру и доступность на уровне, редко встречающемся вне проприетарных сред.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WinGoldBarsWithGrowthPoints
1.04M Популярность
#
RangeTradingStrategy
31.24K Популярность
#
IsraelStrikesIranBTCPlunges
17.27K Популярность
#
BitcoinWeakens
101.08M Популярность
#
FedRateHikeExpectationsResurface
862.09K Популярность

Горячее на Gate Fun
Подробнее

1
get
get
РК:$2.29KДержатели:2
0.07%
2
ZQCJ
重拳出击
РК:$2.29KДержатели:2
0.10%
3
PERPY
PERPY
РК:$0.1Держатели:1
0.00%
4
BRAVO
BRAVO
РК:$2.27KДержатели:2
0.00%
5
ZX
张雪
РК:$2.27KДержатели:1
0.00%

Закрепить

Карта сайта

Tether расширяет обучающие данные для Open AI с выпуском набора данных QVAC Genesis II

Крупное расширение в обучающих данных Open AI

Опираясь на первый релиз Genesis

Сдвиг в том, как генерируются учебные данные

Упор на понимание, а не на беглость

Открытый доступ для исследователей и разработчиков

Поддержка децентрализованного развития ИИ

Роль Tether в исследениях ИИ

Перспектива руководства по релизу

Образовательный охват и покрытие доменов

Оценка и производительность моделей

Последствия для открытых исследований ИИ

Позиция в более широкой экосистеме ИИ

Доступность и следующие шаги

Продолжающееся стремление к открытым основам

Популярные темы

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Горячее на Gate Fun

get

get

ZQCJ

重拳出击

PERPY

PERPY

BRAVO

BRAVO

ZX

张雪

Закрепить