Tether расширяет обучающие данные для Open AI с выпуском набора данных QVAC Genesis II

SleepTrader

2026-03-06 06:50:04

Откройте для себя лучшие новости и события в финтехе!

Подписывайтесь на рассылку FinTech Weekly

Читают руководители JP Morgan, Coinbase, Blackrock, Klarna и других компаний

Крупное расширение обучающих данных Open AI

Tether Data выпустила новую версию своего синтетического образовательного набора данных для искусственного интеллекта, значительно увеличив объем и охват открытых учебных материалов, доступных исследователям по всему миру. Отдел AI-исследований компании, QVAC, объявил, что новая версия, названная QVAC Genesis II, добавляет 107 миллиардов токенов к предыдущему набору данных, доведя общий объем до 148 миллиардов токенов.

Расширенный набор данных стал крупнейшим публичным синтетическим образовательным ресурсом, специально предназначенным для предварительной подготовки AI. Он охватывает 19 академических областей и предназначен для улучшения обучения моделей рассуждению, объяснению и принятию решений, а не поверхностному распознаванию шаблонов.

Объявление позиционирует выпуск как шаг к более прозрачной и доступной разработке AI, в то время как многие передовые обучающие наборы данных остаются закрытыми внутри проприетарных систем.

Развитие на основе первого релиза Genesis

QVAC Genesis II основывается на работе, впервые представленой с Genesis I, которая сосредоточена на создании валидированного синтетического набора данных, ориентированного на образование, охватывающего основные предметы науки, технологий, инженерии и математики. Этот ранний релиз заложил основу для генерации структурированных учебных вопросов, направленных на повышение точности рассуждений.

Новый релиз расширяет охват еще на десять областей, включая химию, информатику, статистику, машинное обучение, астрономию, географию, эконометрику и электротехнику. Также он пересматривает содержание по физике на уровне колледжа, регенерируя его с использованием обновленной методологии, направленной на улучшение концептуальной ясности.

Вместе эти два релиза образуют то, что QVAC называет самым обширным синтетическим образовательным набором данных, когда-либо доступным публике. Он предназначен для использования в предварительной подготовке больших языковых моделей и других систем AI, требующих структурированный академический материал.

Изменение подхода к генерации обучающих данных

В основе Genesis II лежит новый метод генерации данных, называемый Reasoning на уровне вариантов ответов. Этот подход отличается от многих существующих методов синтетических данных тем, что фокусируется не только на неправильных ответах, но и на правильных.

Вместо того чтобы считать правильный ответ конечной точкой, метод анализирует все варианты ответов в вопросе с несколькими вариантами. Правильные ответы разбиваются на части, чтобы усилить понимание, почему они правильные, а неправильные — чтобы устранить распространенные заблуждения. Такая структура позволяет моделям учиться причинному рассуждению и логике принятия решений, а не просто ассоциировать вопросы с результатами.

Этот подход дополняет метод анализа ошибок, введенный в Genesis I, который сосредоточен на извлечении ценности из ошибок модели. Вместе эти два метода образуют цепочку, в которой каждый сгенерированный вопрос предназначен для внесения обучающей ценности.

Независимые оценки, цитируемые QVAC, показывают, что модели, обученные на данных Genesis II, демонстрируют более высокую точность рассуждений и дают более ясные ответы по сравнению с моделями, обученными на предыдущих синтетических наборах данных.

Акцент на понимании, а не на беглости

Большая часть текущей экосистемы обучения AI основывается на сборе очень больших объемов текста, часто с публичных источников, для повышения беглости языка. Цель QVAC отличается в акцентах. Наборы данных Genesis структурированы так, чтобы обучать модели рассуждению и объяснению выводов ясно и понятно.

Руководство компании заявило, что их намерение — перейти от систем обучения, предсказывающих вероятные последовательности текста, к моделям, демонстрирующим понимание основных концепций. Дизайн набора данных ориентирован на ясность, причинность и логику, чтобы снизить неоднозначность в выводах модели.

Этот подход соответствует более широким дискуссиям в области AI о надежности и объяснимости, особенно при использовании AI в образовании, науке и поддержке принятия решений.

Открытый доступ для исследователей и разработчиков

Как и в случае с оригинальным набором Genesis, QVAC Genesis II выпускается открыто. Датасет доступен по лицензии Creative Commons Attribution–NonCommercial 4.0, что позволяет исследователям, академическим учреждениям и независимым разработчикам использовать и изучать данные вне коммерческих целей.

Датасет и связанные модели размещены на платформе Hugging Face, вместе с подробной технической статьей, описывающей методологию генерации и результаты оценки. Такое открытое распространение призвано снизить барьеры для исследователей, не имеющих доступа к крупным проприетарным наборам данных.

Поддерживая некоммерческую лицензию, QVAC стремится поддерживать академические и сообщественные исследования, ограничивая прямое коммерческое использование.

Поддержка децентрализованного развития AI

Выпуск также вписывается в более широкую стратегию Tether Data по стимулированию децентрализованного развития AI. Компания заявила, что качественные обучающие данные не должны быть доступны только организациям с централизованной облачной инфраструктурой.

Обеспечивая публичный доступ к крупномасштабным структурированным наборам данных, QVAC стремится дать возможность локального обучения, экспериментов и внедрения моделей AI. Такой подход предназначен для поддержки исследовательских сред, где вычислительные ресурсы могут быть ограничены, но интеллектуальный вклад важен.

Акцент на децентрализации отражает растущий интерес к снижению зависимости от нескольких доминирующих платформ AI и развитию более распределенной исследовательской экосистемы.

Роль Tether в исследованиях AI

QVAC функционирует как отдел AI-исследований Tether Data. Хотя Tether широко известен своей ролью в цифровых активах и стейблкоинах, в последние годы компания расширила деятельность в области данных и AI-исследований.

Через QVAC Tether Data сосредоточена на создании инфраструктуры и ресурсов, поддерживающих открытые исследования. Наборы Genesis — один из наиболее заметных результатов этой работы, позиционируя компанию в дискуссиях о открытом развитии AI и обучающих данных, ориентированных на образование.

Эта деятельность также отражает растущее пересечение финтех-компаний и передовых исследований AI, поскольку финансовые технологические фирмы все активнее инвестируют в Data Science и машинное обучение.

Мнение руководства о релизе

Руководство компании охарактеризовало выпуск Genesis II как отход от подходов к обучению, ориентированных только на объем данных. Согласно заявлениям руководства Tether, основной акцент — научить системы AI рассуждать и объяснять, а не просто генерировать беглые ответы.

Пауоло Ардойно, исполнительный директор Tether, подчеркнул, что надежный AI должен основываться на понимании, почему ответы правильные. Он отметил, что открытый доступ к набору данных отражает убеждение, что более сильный и объяснимый AI приносит пользу всему обществу.

Эти взгляды перекликаются с озабоченностью исследователей по поводу ограничений моделей, обученных преимущественно на неструктурированном тексте.

Образовательный охват и тематическое покрытие

Объединенные наборы данных Genesis I и II охватывают 19 областей, содержание которых рассчитано на средний и высший уровень образования. Темы варьируются от базовой математики и физики до прикладных дисциплин, таких как эконометрика и машинное обучение.

Каждая область включает структурированные вопросы, объяснения и логические цепочки, предназначенные для имитации методов преподавания и оценки в формальном образовании. Такой дизайн поддерживает задачи предварительной подготовки, требующие логической последовательности и концептуальной глубины.

Регенерируя и расширяя содержание с помощью улучшенных методов, QVAC стремится усовершенствовать представление образовательного материала в синтетических наборах данных.

Оценка и производительность моделей

Согласно внутренним и независимым оценкам, упомянутым QVAC, модели, обученные на данных Genesis II, показывают улучшенные результаты в задачах, требующих рассуждений. В их числе — ответы на структурированные вопросы, объяснение выводов и избегание двусмысленных или противоречивых ответов.

Результаты оценки свидетельствуют, что сочетание методов анализа ошибок и Reasoning на уровне вариантов ответов приводит к более последовательным выводам. Хотя компания не позиционирует этот набор данных как самостоятельное решение, она рассматривает его как прочную основу для дальнейшего обучения и донастройки.

Ожидается, что исследователи проведут дополнительные оценки по мере широкого использования набора данных в сообществе.

Влияние на открытые исследования AI

Выпуск такого крупного открытого набора данных может повлиять на подходы академических и независимых исследователей к обучению моделей. Доступ к структурированным образовательным данным в таком масштабе традиционно был ограничен хорошо финансируемыми организациями.

Предоставляя альтернативу, QVAC Genesis II может поддержать эксперименты с меньшими моделями, локальное обучение и исследования объяснимого AI.

Этот набор данных также может стать эталоном для будущих проектов синтетических данных, ориентированных на качество рассуждений, а не только на размер.

Позиционирование в экосистеме AI

QVAC Genesis II входит в быстро развивающуюся экосистему AI, где ресурсы концентрируются в руках немногих. Многие самые мощные модели обучаются на проприетарных наборах данных, недоступных для проверки или воспроизведения.

Открытые наборы данных, такие как Genesis II, предоставляют возможность прозрачности и совместного прогресса. Они также вызывают вопросы о том, как открытые ресурсы могут сосуществовать с коммерческим развитием AI.

Участие компании, связанной с финтехом и цифровыми активами, подчеркивает, что исследования AI привлекают интерес различных отраслей, выходящих за рамки традиционных технологических компаний.

Доступность и дальнейшие шаги

Полная техническая документация по набору данных под названием “QVAC Genesis II: Расширение крупнейшего и самого высокого качества мультидоменного образовательного синтетического набора данных для предварительной подготовки” опубликована в блоге исследований QVAC. Доступ к набору данных и связанным моделям осуществляется через Hugging Face.

QVAC планирует продолжать совершенствовать свои методы и расширять образовательное покрытие в будущих релизах. Обратная связь от исследовательского сообщества будет играть важную роль в формировании следующих версий.

Постоянное продвижение открытых основ

С выпуском Genesis II QVAC подтверждает свою позицию, что открытые структурированные обучающие данные необходимы для создания надежных систем AI. Релиз отражает убеждение, что интеллект должен основываться на рассуждении и объяснении, а не только на статистической ассоциации.

По мере интеграции систем AI в образование, науку и финансовые услуги, качество их обучающих данных останется центральным вопросом.

На данный момент расширенный набор Genesis является заметным вкладом в открытые исследования AI, предлагая масштаб, структуру и доступность на уровне, редко встречающемся за пределами проприетарных систем.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

0/400

Нет комментариев

Популярные темы
Подробнее
#
FebNonfarmPayrollsUnexpectedlyFall
884.56K Популярность
#
CryptoMarketsDipSlightly
4.68M Популярность
#
IsraelStrikesIranBTCPlunges
12.17K Популярность
#
PreciousMetalsAndOilPricesSurge
491.37K Популярность
#
USIranTensionsImpactMarkets
236.75K Популярность

Горячее на Gate Fun
Подробнее

1
ZMAI
芝麻AI
РК:$2.42KДержатели:1
0.00%
2
KDOG
KOL
РК:$2.42KДержатели:1
0.00%
3
PS2
Playstation 2
РК:$2.46KДержатели:2
0.09%
4
BTW
Bitway
РК:$0.1Держатели:1
0.00%
5
DS
DS
РК:$0.1Держатели:1
0.00%

Закрепить

Карта сайта

Tether расширяет обучающие данные для Open AI с выпуском набора данных QVAC Genesis II

Крупное расширение обучающих данных Open AI

Развитие на основе первого релиза Genesis

Изменение подхода к генерации обучающих данных

Акцент на понимании, а не на беглости

Открытый доступ для исследователей и разработчиков

Поддержка децентрализованного развития AI

Роль Tether в исследованиях AI

Мнение руководства о релизе

Образовательный охват и тематическое покрытие

Оценка и производительность моделей

Влияние на открытые исследования AI

Позиционирование в экосистеме AI

Доступность и дальнейшие шаги

Постоянное продвижение открытых основ

Популярные темы

FebNonfarmPayrollsUnexpectedlyFall

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

PreciousMetalsAndOilPricesSurge

USIranTensionsImpactMarkets

Горячее на Gate Fun

ZMAI

芝麻AI

KDOG

KOL

PS2

Playstation 2

BTW

Bitway

DS

DS

Закрепить