Tether расширяет открытые данные для обучения ИИ с выпуском набора данных QVAC Genesis II


Откройте для себя лучшие новости и события финтеха!

Подпишитесь на рассылку FinTech Weekly

Читают руководители JP Morgan, Coinbase, Blackrock, Klarna и других


Крупное расширение данных для обучения Open AI

Tether Data выпустила новую версию своего синтетического образовательного набора данных для искусственного интеллекта, значительно увеличив объем и охват открытых учебных материалов, доступных исследователям по всему миру. Отдел исследований ИИ компании, QVAC, объявил, что новая версия, названная QVAC Genesis II, добавляет 107 миллиардов токенов к предыдущему набору данных, доведя общий объем до 148 миллиардов токенов.

Расширенный набор данных теперь является крупнейшим публично доступным синтетическим образовательным ресурсом, специально предназначенным для предварительной подготовки ИИ. Он охватывает 19 академических областей и предназначен для улучшения обучения моделей рассуждению, объяснению и принятию решений, а не поверхностному распознаванию шаблонов.

Объявление позиционирует выпуск как шаг к более прозрачной и доступной разработке ИИ, в то время как многие передовые обучающие наборы данных остаются закрытыми внутри проприетарных систем.

Развитие на основе первого релиза Genesis

QVAC Genesis II основывается на работе, впервые представленой с Genesis I, которая сосредоточилась на создании валидированного синтетического набора данных, ориентированного на образование, охватывающего основные предметы науки, технологий, инженерии и математики. Этот ранний релиз создал основу для генерации структурированных учебных вопросов, направленных на повышение точности рассуждений.

Новый релиз расширяет охват еще на десять областей, включая химию, информатику, статистику, машинное обучение, астрономию, географию, эконометрику и электротехнику. Также он пересматривает содержание по физике на уровне колледжа, регенерируя его с использованием обновленной методологии, предназначенной для повышения концептуальной ясности.

Вместе эти два релиза образуют то, что QVAC описывает как самый обширный синтетический образовательный набор данных, когда-либо доступный публике. Он предназначен для использования в предварительной подготовке больших языковых моделей и других систем ИИ, требующих структурированный академический материал.

Сдвиг в методах генерации обучающих данных

В основе Genesis II лежит новый метод генерации данных, называемый Reasoning на уровне вариантов ответов. Этот подход отличается от многих существующих методов синтетических данных тем, что фокусируется не только на неправильных ответах, но и на правильных.

Вместо того чтобы считать правильный ответ концом процесса, метод анализирует каждый вариант ответа в вопросе с несколькими вариантами. Правильные ответы разбиваются для усиления понимания, почему они правильные, а неправильные — для устранения распространенных заблуждений. Эта структура позволяет моделям учиться причинному рассуждению и логике принятия решений, а не просто связывать вопросы с результатами.

Этот подход дополняет метод анализа ошибок, введенный в Genesis I, который сосредоточен на извлечении ценности из ошибок модели. Вместе оба метода формируют цепочку, в которой каждый сгенерированный вопрос предназначен для внесения обучающей ценности.

Независимые оценки, цитируемые QVAC, показывают, что модели, обученные на данных Genesis II, демонстрируют более высокую точность рассуждений и дают более ясные ответы, чем модели, обученные на ранних синтетических наборах данных.

Акцент на понимании, а не на беглости

Большая часть текущей экосистемы обучения ИИ основана на сборе очень больших объемов текста, часто скрапленных из публичных источников, для повышения беглости языка. Заявленная цель QVAC отличается в акцентах. Наборы данных Genesis структурированы так, чтобы обучать модели рассуждению и объяснению выводов ясно и понятно.

Руководство компании указало, что их намерение — перейти от систем обучения, предсказывающих вероятные последовательности текста, к моделям, демонстрирующим понимание базовых концепций. Дизайн набора данных ориентирован на ясность, причинность и логику, чтобы снизить неоднозначность в выводах моделей.

Этот подход согласуется с более широкими дискуссиями в исследовании ИИ о надежности и объяснимости, особенно при использовании систем ИИ в образовании, науке и поддержке принятия решений.

Открытый доступ для исследователей и разработчиков

Как и в случае с оригинальным набором Genesis, QVAC Genesis II выпускается открыто. Набор данных доступен по лицензии Creative Commons Attribution–NonCommercial 4.0, позволяющей исследователям, академическим учреждениям и независимым разработчикам использовать и изучать данные вне коммерческих целей.

Набор данных и связанные модели размещены на платформе Hugging Face, вместе с подробной технической статьей, описывающей методологию генерации и результаты оценки. Такое открытое распространение призвано снизить барьеры для исследователей, не имеющих доступа к крупным проприетарным наборам данных.

Поддерживая лицензию, ограниченную некоммерческим использованием, QVAC стремится поддерживать академические и сообщественные исследования, ограничивая прямую коммерческую эксплуатацию.

Поддержка децентрализованной разработки ИИ

Выпуск также вписывается в более широкую стратегию Tether Data по стимулированию децентрализованной разработки ИИ. Компания заявила, что качественные обучающие данные не должны быть ограничены организациями, имеющими доступ к централизованной облачной инфраструктуре.

Обеспечивая публичный доступ к крупномасштабным структурированным наборам данных, QVAC стремится способствовать локальному обучению, экспериментам и развертыванию моделей ИИ. Такой подход предназначен для поддержки исследовательских сред, где вычислительные ресурсы могут быть ограничены, но интеллектуальный вклад важен.

Акцент на децентрализацию отражает растущий интерес к снижению зависимости от нескольких доминирующих платформ ИИ и развитию более распределенной исследовательской экосистемы.

Роль Tether в исследованиях ИИ

QVAC функционирует как отдел исследований ИИ компании Tether Data. Хотя Tether широко известен своей ролью в цифровых активах и стейблкоинах, в последние годы компания расширила деятельность в области данных и исследований ИИ.

Через QVAC Tether Data сосредоточилась на создании инфраструктуры и ресурсов, поддерживающих открытые исследования. Наборы данных Genesis — один из наиболее заметных результатов этой работы, позиционируя компанию в дискуссиях о развитии открытого ИИ и обучающих данных, ориентированных на образование.

Эта работа также отражает растущее пересечение финтех-компаний и передовых исследований ИИ, поскольку финансовые технологические фирмы все активнее инвестируют в Data Science и возможности машинного обучения.

Мнение руководства о релизе

Руководство компании охарактеризовало выпуск Genesis II как отход от подходов к обучению, ориентированных только на объем. Согласно заявлениям руководства Tether, основной акцент — научить системы ИИ рассуждать и объяснять, а не просто генерировать беглые ответы.

Пауло Ардойно, исполнительный директор Tether, подчеркнул, что надежный ИИ должен основываться на понимании, почему ответы правильные. Он отметил, что открытый доступ к набору данных отражает убеждение, что более сильный и объяснимый ИИ приносит пользу всему обществу.

Эти взгляды перекликаются с озабоченностью исследователей о ограничениях моделей, обученных преимущественно на неструктурированном тексте.

Образовательный охват и области

Объединенные наборы данных Genesis I и II охватывают 19 областей, содержание которых рассчитано на уровни среднего и высшего образования. Темы варьируются от базовой математики и физики до прикладных дисциплин, таких как эконометрика и машинное обучение.

Каждая область включает структурированные вопросы, объяснения и логические цепочки, предназначенные для имитации методов преподавания и оценки в формальном образовании. Такой дизайн поддерживает задачи предварительной подготовки, требующие логической последовательности и концептуальной глубины.

Регенерируя и расширяя содержание с помощью улучшенных методов, QVAC стремится усовершенствовать представление образовательного материала в синтетических наборах данных.

Оценка и эффективность моделей

Согласно внутренним и независимым оценкам, упомянутым QVAC, модели, обученные на данных Genesis II, показывают улучшенные результаты в задачах, требующих рассуждения. В их числе — ответы на структурированные вопросы, объяснение выводов и избегание двусмысленных или противоречивых ответов.

Результаты оценки свидетельствуют, что сочетание методов анализа ошибок и Reasoning на уровне вариантов приводит к более последовательным выводам. Хотя компания не позиционирует набор данных как самостоятельное решение, она представляет его как прочную основу для дальнейшего обучения и донастройки.

Ожидается, что исследователи проведут дополнительные оценки по мере широкого использования набора данных в сообществе.

Влияние на открытые исследования ИИ

Выпуск такого крупного открытого набора данных может повлиять на подходы академических и независимых исследователей к обучению моделей. Доступ к структурированным образовательным данным в таком масштабе традиционно был ограничен хорошо финансируемыми организациями.

Предоставляя альтернативу, QVAC Genesis II может поддержать эксперименты с меньшими моделями, локальное обучение и исследования объяснимого ИИ.

Этот набор данных также может стать эталоном для будущих проектов синтетических данных, ориентированных на качество рассуждений, а не только на размер.

Положение в более широкой экосистеме ИИ

QVAC Genesis II входит в быстро развивающуюся экосистему ИИ, характеризующуюся ростом концентрации ресурсов. Многие самые мощные модели обучаются на проприетарных наборах данных, недоступных для проверки или воспроизведения.

Открытые наборы данных, такие как Genesis II, предлагают альтернативу, способствуя прозрачности и совместному прогрессу. Они также поднимают вопросы о том, как открытые ресурсы могут сосуществовать с коммерческим развитием ИИ.

Участие компании, связанной с финтехом и цифровыми активами, подчеркивает, что исследования ИИ привлекают интерес различных отраслей, выходящих за рамки традиционных технологических компаний.

Доступность и дальнейшие шаги

Полная техническая документация по набору данных под названием «QVAC Genesis II: Расширение крупнейшего и самого высокого качества мультидоменного образовательного синтетического набора данных для предварительной подготовки» опубликована в блоге исследований QVAC. Доступ к набору данных и связанным моделям осуществляется через Hugging Face.

QVAC заявила о планах продолжать совершенствовать методы и расширять образовательное покрытие в будущих релизах. Обратная связь от исследовательского сообщества, как ожидается, сыграет важную роль в формировании следующих итераций.

Непрерывное продвижение открытых основ

С выпуском Genesis II QVAC подтверждает свою позицию, что открытые структурированные обучающие данные необходимы для создания надежных систем ИИ. Релиз отражает мнение, что интеллект должен основываться на рассуждении и объяснении, а не только на статистической ассоциации.

По мере интеграции систем ИИ в образование, науку и финансовые услуги, включая финтех-приложения, качество их обучающих данных останется важнейшей задачей.

На данный момент расширенный набор Genesis является заметным вкладом в открытые исследования ИИ, предлагая масштаб, структуру и доступность, которые редко встречаются вне проприетарных систем.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить