Tether розширює відкриті дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II

SleepTrader

2026-03-28 19:18:33

Відкрийте для себе топові новини та події у сфері фінтех!

Підпишіться на інформаційний бюлетень FinTech Weekly

Читають керівники JP Morgan, Coinbase, Blackrock, Klarna та інші

Велике розширення навчальних даних для Open AI

Tether Data випустила нову версію свого синтетичного навчального набору даних для штучного інтелекту, суттєво збільшивши обсяг і масштаб відкритих навчальних матеріалів, доступних дослідникам по всьому світу. Підрозділ AI-досліджень компанії, QVAC, повідомив, що новий реліз під назвою QVAC Genesis II додає 107 мільярдів токенів до попереднього набору даних, доводячи загальний розмір до 148 мільярдів токенів.

Розширений набір даних наразі є найбільшим публічно доступним синтетичним освітнім ресурсом, створеним спеціально для AI-претренінгу. Він охоплює 19 академічних дисциплін і має на меті покращити те, як моделі вчаться міркуванню, поясненню та прийняттю рішень, а не розпізнаванню шаблонів на поверхневому рівні.

Оголошення подає реліз як крок до більш прозорого й доступного розвитку AI — у час, коли багато передових навчальних наборів даних залишаються “закритими” в межах пропрієтарних систем.

Розвиток першого релізу Genesis

QVAC Genesis II спирається на роботу, уперше представлену в Genesis I, яка була зосереджена на створенні валідованого синтетичного набору даних, орієнтованого на освіту, що охоплює базові дисципліни з природничих наук, технологій, інженерії та математики. Той попередній реліз заклав основу для генерації структурованих навчальних питань, спрямованих на підвищення точності міркувань.

Новий реліз розширює охоплення на десять додаткових галузей, зокрема хімію, інформатику, статистику, машинне навчання, астрономію, географію, економетрику та електротехніку. Він також повертається до контенту з фізики рівня коледжу, регенеруючи його за допомогою оновленої методології, розробленої для покращення концептуальної ясності.

Разом ці два релізи, як описує QVAC, формують найбільш масштабний синтетичний освітній набір даних, який будь-коли було зроблено доступним для публіки. Набір даних призначений для використання в претренінгу великих мовних моделей та інших AI-систем, яким потрібен структурований академічний матеріал.

Зміна в тому, як генеруються навчальні дані

У основі Genesis II лежить новий метод генерації даних, який називають Option-Level Reasoning. Цей підхід відрізняється від багатьох наявних технік синтетичних даних тим, що фокусується не лише на неправильних відповідях, а й на правильних.

Замість того, щоб вважати коректну відповідь кінцем процесу, метод аналізує кожний варіант відповіді в питанні з вибором одного з кількох. Коректні варіанти розбираються, щоб підсилити, чому вони правильні, тоді як неправильні опції розглядаються, щоб усунути типові хибні уявлення. Така структура дозволяє моделям вчитися причинному мисленню та логіці прийняття рішень, а не просто пов’язувати запитання з результатами.

Цей підхід доповнює метод Failure Analysis, представлений у Genesis I, який був зосереджений на вилученні цінності з помилок моделі. Разом ці два методи утворюють конвеєр, у якому кожне згенероване питання створене так, щоб приносити навчальну цінність.

Незалежні оцінки, на які посилається QVAC, вказують, що моделі, натреновані на даних Genesis II, демонструють вищу точність міркувань і видають чіткіші відповіді, ніж ті, що тренувалися на попередніх синтетичних наборах даних.

Акцент на розумінні замість вільної “багатослівності”

Багато сучасної навчальної екосистеми AI покладається на складання дуже великих обсягів тексту, часто зібраного зі відкритих джерел, щоб покращити мовну плавність. Заявлена ціль QVAC відрізняється акцентом. Набори Genesis структуровані так, щоб навчати моделі тому, як міркувати над задачами й пояснювати висновки зрозуміло.

Керівництво компанії вказало, що намір полягає в тому, щоб вийти за межі тренувальних систем, які прогнозують найбільш ймовірні послідовності тексту, — до моделей, які демонструють розуміння базових концепцій. Дизайн набору даних надає пріоритет ясності, причинності та логіці, прагнучи зменшити неоднозначність у виводах моделей.

Такий підхід узгоджується з ширшими обговореннями в AI-дослідженнях щодо надійності та пояснюваності, особливо коли AI-системи застосовуються в освіті, науці та контекстах підтримки рішень.

Відкритий доступ для дослідників і розробників

Як і для оригінального набору даних Genesis, QVAC Genesis II випускається відкрито. Набір даних доступний за ліцензією Creative Commons Attribution–NonCommercial 4.0, що дозволяє дослідникам, академічним установам і незалежним розробникам використовувати й вивчати дані поза комерційними сценаріями.

Набір даних і пов’язані моделі розміщені на Hugging Face, разом із детальною технічною статтею, яка описує методологію генерації та результати оцінювання. Такий відкритий розподіл має на меті знизити бар’єри для дослідників, які не мають доступу до великих пропрієтарних наборів даних.

Зберігаючи некомерційне ліцензування, QVAC прагне підтримувати академічні та ініційовані спільнотою дослідження, водночас обмежуючи пряме комерційне використання.

Підтримка децентралізованого розвитку AI

Реліз також вписується в ширшу стратегію, яку Tether Data проводить, щоб стимулювати децентралізований розвиток AI. Компанія заявила, що високоякісні навчальні дані не слід обмежувати організаціями, які мають доступ до централізованої хмарної інфраструктури.

Роблячи великомасштабні структуровані набори даних публічно доступними, QVAC прагне дати змогу для локального тренування, експериментів і розгортання AI-моделей. Цей підхід покликаний підтримувати дослідницькі середовища, де обчислювальні ресурси можуть бути обмеженими, але інтелектуальний внесок залишається суттєвим.

Акцент на децентралізації відображає зростаючий інтерес до зменшення залежності від невеликої кількості домінантних AI-платформ і розвитку більш розподіленої дослідницької екосистеми.

Роль Tether у AI-дослідженнях

QVAC працює як підрозділ AI-досліджень Tether Data. Хоча Tether широко відома своєю роллю у цифрових активах і стейблкоїнах, компанія розширила свою діяльність у напрямі даних і AI-досліджень упродовж останніх років.

Через QVAC Tether Data зосередилася на створенні інфраструктури та ресурсів, що підтримують відкриті дослідження. Набори даних Genesis є одним із найпомітніших результатів цієї ініціативи, позиціонуючи компанію в дискусіях щодо відкритого розвитку AI та навчальних даних, орієнтованих на освіту.

Ця робота також відображає зростаюче перетинання між фінтех-компаніями та передовими AI-дослідженнями, оскільки фінансово-технологічні фірми дедалі частіше інвестують у можливості data science і машинного навчання.

Погляд керівництва на реліз

Керівництво компанії представило реліз Genesis II як крок від тренувальних підходів, що роблять ставку лише на обсяг. Фокус, за заявами з боку керівної команди Tether, полягає в навчанні AI-систем того, як міркувати й пояснювати, а не просто генерувати “плавні” відповіді.

Паоло Ардойно, CEO Tether, підкреслив, що надійний AI має ґрунтуватися на розумінні того, чому відповіді є правильними. Він зазначив, що те, що набір даних відкрито доступний, відображає переконання, що сильніший, більш пояснюваний AI приносить користь суспільству загалом.

Ці погляди перегукуються з занепокоєннями, які висловлювали дослідники щодо обмежень моделей, натренованих переважно на неструктурованому тексті.

Освітній масштаб і охоплення доменів

Сумарні набори даних Genesis I і II охоплюють 19 доменів із контентом, створеним на рівнях середньої та вищої освіти. Теми варіюються від базової математики та фізики до прикладних галузей, таких як економетрика та машинне навчання.

Кожний домен містить структуровані питання, пояснення та логічні траєкторії міркувань, призначені віддзеркалювати те, як концепції викладаються й оцінюються в формальних освітніх середовищах. Такий дизайн має на меті підтримувати завдання претренінгу, які потребують логічної узгодженості та концептуальної глибини.

Регенеруючи й розширюючи контент із застосуванням удосконалених методів, QVAC прагне уточнити те, як освітній матеріал репрезентується в синтетичних наборах даних.

Оцінювання та продуктивність моделей

Згідно з внутрішніми та незалежними оцінюваннями, на які посилається QVAC, моделі, натреновані на даних Genesis II, демонструють покращену продуктивність у задачах, що потребують міркувань. До них належать відповіді на структуровані запитання, пояснення висновків і уникання неоднозначних або суперечливих відповідей.

Результати оцінювання свідчать, що поєднання Failure Analysis і Option-Level Reasoning призводить до більш послідовних виводів. Хоча компанія не позиціонувала набір даних як окреме самодостатнє рішення, вона представила його як міцну основу для подальшого тренування та fine-tuning.

Очікується, що дослідники проведуть додаткові оцінювання, коли набір даних набуде ширшого використання в спільноті.

Наслідки для відкритих AI-досліджень

Випуск такого великого відкритого набору даних може вплинути на те, як академічні та незалежні дослідники підходять до тренування моделей. Доступ до структурованих навчальних даних у такому масштабі традиційно був обмежений для добре профінансованих організацій.

Надаючи альтернативу, QVAC Genesis II може підтримати експерименти з меншими моделями, локальні ініціативи тренування та дослідження методів пояснюваного AI.

Набір даних також може слугувати бенчмарком для майбутніх проєктів із синтетичними даними, які роблять ставку на якість міркувань, а не лише на обсяг.

Позиція в ширшій екосистемі AI

QVAC Genesis II входить в AI-екосистему, позначену швидким розвитком і зростанням концентрації ресурсів. Багато з найздібніших моделей тренуються на пропрієтарних наборах даних, які недоступні для перевірки або реплікації.

Відкриті набори даних на кшталт Genesis II пропонують контрапункт, забезпечуючи прозорість і спільний прогрес. Вони також піднімають питання про те, як відкриті ресурси можуть співіснувати з комерційним розвитком AI.

Участь компанії, що має коріння у фінтеху та цифрових активах, підкреслює, як AI-дослідження викликають інтерес у широкого кола галузей за межами традиційних технологічних компаній.

Доступність і наступні кроки

Повна технічна документація для набору даних під назвою “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training” опублікована в QVAC research blog. Доступ до набору даних і пов’язаних моделей доступний через Hugging Face.

QVAC вказала, що планує продовжувати вдосконалювати свої методи та розширювати освітнє охоплення в майбутніх релізах. Відгуки з дослідницької спільноти, як очікується, відіграватимуть роль у формуванні наступних ітерацій.

Подальший поштовх до відкритих фундаментів

З Genesis II QVAC підкріплює свою позицію, що відкриті, структуровані навчальні дані є критично важливими для побудови надійних AI-систем. Реліз відображає погляд, що інтелект має ґрунтуватися на міркуванні та поясненні, а не лише на статистичній асоціації.

Оскільки AI-системи стають дедалі більше інтегрованими в освіту, науку та фінансові послуги, включно з фінтех-застосунками, якість їхніх навчальних даних залишатиметься центральним питанням.

Поки що розширений набір даних Genesis є помітним внеском у відкриті AI-дослідження, пропонуючи масштаб, структуру та доступність на рівні, який рідко трапляється поза пропрієтарними середовищами.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
WinGoldBarsWithGrowthPoints
1.03M Популярність
#
RangeTradingStrategy
23.65K Популярність
#
IsraelStrikesIranBTCPlunges
17.22K Популярність
#
BitcoinWeakens
101.06M Популярність
#
FedRateHikeExpectationsResurface
857.62K Популярність

Популярні активності Gate Fun
Дізнатися більше

1
MINA
Mina Coin
Рин. кап.:$0.1Холдери:2
0.00%
2
SU
Satoru
Рин. кап.:$0.1Холдери:1
0.00%
3
CoCo
Coco
Рин. кап.:$2.25KХолдери:1
0.00%
4
Bcd
Dogs
Рин. кап.:$2.26KХолдери:1
0.00%
5
BC
BC
Рин. кап.:$2.26KХолдери:1
0.00%

Закріпити

карта сайту

Tether розширює відкриті дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II

Велике розширення навчальних даних для Open AI

Розвиток першого релізу Genesis

Зміна в тому, як генеруються навчальні дані

Акцент на розумінні замість вільної “багатослівності”

Відкритий доступ для дослідників і розробників

Підтримка децентралізованого розвитку AI

Роль Tether у AI-дослідженнях

Погляд керівництва на реліз

Освітній масштаб і охоплення доменів

Оцінювання та продуктивність моделей

Наслідки для відкритих AI-досліджень

Позиція в ширшій екосистемі AI

Доступність і наступні кроки

Подальший поштовх до відкритих фундаментів

Популярні теми

WinGoldBarsWithGrowthPoints

RangeTradingStrategy

IsraelStrikesIranBTCPlunges

BitcoinWeakens

FedRateHikeExpectationsResurface

Популярні активності Gate Fun

MINA

Mina Coin

SU

Satoru

CoCo

Coco

Bcd

Dogs

BC

BC

Закріпити