Tether розширює відкриті дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II

SleepTrader

2026-04-03 08:56:09

Відкрийте для себе найкращі фінтех-новини та події!

Підпишіться на розсилку FinTech Weekly

Читають керівники JP Morgan, Coinbase, Blackrock, Klarna та інші

Велике розширення навчальних даних для Open AI

Tether Data випустила нову версію свого синтетичного навчального набору даних для штучного інтелекту, суттєво збільшивши обсяг і сферу відкритих навчальних матеріалів, доступних дослідникам по всьому світу. Дослідницький підрозділ компанії з AI, QVAC, оголосив, що новий реліз під назвою QVAC Genesis II додає 107 мільярдів токенів до свого попереднього набору, доводячи загальний обсяг до 148 мільярдів токенів.

Розширений набір даних тепер є найбільшим публічно доступним синтетичним навчальним ресурсом, створеним спеціально для AI-переднавчання. Він охоплює 19 академічних напрямів і призначений покращити те, як моделі вчаться міркуванню, поясненню та ухваленню рішень, а не поверхневому розпізнаванню шаблонів.

Оголошення позиціонує реліз як крок до більш прозорої та доступної розробки AI, у той час, коли багато передових навчальних наборів даних залишаються заблокованими в межах власницьких систем.

Спираючись на перший реліз Genesis

QVAC Genesis II спирається на роботу, уперше представлену разом із Genesis I, яка була зосереджена на створенні валідованого синтетичного набору даних із акцентом на освіту, що охоплює базові предмети з науки, технологій, інженерії та математики. Той попередній реліз заклав основу для генерації структурованих навчальних запитань, спрямованих на підвищення точності міркувань.

Новий реліз розширює охоплення ще на десять додаткових галузей, включно з хімією, інформатикою, статистикою, машинним навчанням, астрономією, географією, економетрикою та електротехнікою. Він також переглядає контент з фізики на рівні коледжу, генеруючи його заново з використанням оновленої методології, розробленої для покращення концептуальної ясності.

Разом ці два релізи формують те, що QVAC описує як найбільш масштабний синтетичний навчальний набір даних, який досі було зроблено доступним для публіки. Набір даних призначений для використання в переднавчанні великих мовних моделей та інших AI-систем, яким потрібен структурований академічний матеріал.

Зміна підходу до генерації навчальних даних

У центрі Genesis II — новий метод генерації даних, який називають Option-Level Reasoning (міркування на рівні варіантів). Цей підхід відрізняється від багатьох наявних технік синтетичних даних тим, що фокусується не лише на неправильних відповідях, а й на правильних.

Замість того, щоб розглядати правильну відповідь як завершення процесу, метод аналізує кожен варіант відповіді в запитанні з вибором одного з кількох варіантів. Правильні варіанти розкладаються на складові, щоб підсилити, чому саме вони є правильними, тоді як неправильні варіанти аналізуються, щоб усунути типові хибні уявлення. Така структура дозволяє моделям вивчати причинно-наслідкове міркування та логіку ухвалення рішень, а не просто пов’язувати запитання з результатами.

Підхід доповнює метод Failure Analysis (аналіз відмов/помилок), представлений у Genesis I, який був зосереджений на вилученні цінності з помилок моделі. Разом ці два методи формують конвеєр, у якому кожне згенероване запитання створюється так, щоб вносити навчальну цінність.

Незалежні оцінки, на які посилається QVAC, вказують, що моделі, навчені на даних Genesis II, демонструють вищу точність міркувань і дають чіткіші відповіді, ніж ті, що навчалися на попередніх синтетичних наборах даних.

Акцент на розуміння замість плавності

Багато сучасної екосистеми навчання AI спирається на складання дуже великих обсягів тексту, який часто витягують із публічних джерел, щоб покращити мовну плавність. Поставлена QVAC ціль відрізняється за акцентом. Набори даних Genesis структуровані так, щоб навчати моделі міркувати про проблеми та пояснювати висновки зрозуміло.

Керівництво компанії зазначило, що намір полягає в тому, щоб вийти за межі систем навчання, які прогнозують імовірні послідовності тексту, на користь моделей, що демонструють розуміння базових концепцій. Проєктування набору даних пріоритезує ясність, причинність і логіку, прагнучи зменшити неоднозначність у виходах моделей.

Такий підхід узгоджується з ширшими дискусіями в дослідженнях AI щодо надійності та пояснюваності, особливо коли AI-системи застосовуються в освіті, науці та контекстах підтримки ухвалення рішень.

Відкритий доступ для дослідників і розробників

Як і у випадку з оригінальним набором даних Genesis, QVAC Genesis II випускається відкрито. Набір даних доступний під ліцензією Creative Commons Attribution–NonCommercial 4.0, що дозволяє дослідникам, академічним установам і незалежним розробникам використовувати та вивчати дані поза межами комерційних умов.

Набір даних і пов’язані моделі розміщено на Hugging Face, разом із детальним технічним матеріалом, який описує методологію генерації та результати оцінювання. Цей відкритий розподіл призначений зменшити бар’єри для дослідників, які не мають доступу до великих власницьких наборів даних.

Зберігаючи неліцензійну комерційну модель, QVAC прагне підтримувати академічні та дослідження, що ґрунтуються на ініціативах спільноти, обмежуючи пряме комерційне використання.

Підтримка децентралізованої розробки AI

Реліз також вписується в ширшу стратегію, якої дотримується Tether Data, щоб заохочувати децентралізовану розробку AI. Компанія заявила, що високоякісні навчальні дані не мають бути обмежені організаціями, які мають доступ до централізованої хмарної інфраструктури.

Зробивши доступними публічно масштабні, структуровані набори даних, QVAC прагне дати змогу локальному тренуванню, експериментам і розгортанню AI-моделей. Такий підхід призначений підтримувати дослідницькі середовища, де обчислювальні ресурси можуть бути обмеженими, але інтелектуальний внесок залишається значним.

Акцент на децентралізації відображає зростаючий інтерес до зменшення залежності від невеликої кількості домінантних AI-платформ і формування більш розподіленої дослідницької екосистеми.

Роль Tether у дослідженнях AI

QVAC працює як дослідницький підрозділ AI Tether Data. Хоча Tether широко відома своєю роллю в цифрових активах і стейблкоїнах, компанія розширила свою діяльність у напрямі роботи з даними та досліджень AI в останні роки.

Через QVAC Tether Data зосереджувалася на створенні інфраструктури та ресурсів, які підтримують відкриті дослідження. Набори даних Genesis є одним із найпомітніших результатів цієї роботи, позиціонуючи компанію в дискусіях навколо відкритої розробки AI та навчальних даних, орієнтованих на освіту.

Ця робота також відображає зростаючий збіг між фінтех-компаніями та передовими дослідженнями AI, адже фінансово-технологічні фірми все частіше інвестують у можливості з науки про дані та машинного навчання.

Погляд керівництва на реліз

Керівництво компанії представило реліз Genesis II як крок від підходів до навчання, які роблять ставку лише на обсяг. За словами, озвученими командою керівництва Tether, фокус полягає в тому, щоб навчати AI-системи міркувати та пояснювати, а не просто генерувати плавні відповіді.

Паоло Ардойно, генеральний директор Tether, наголосив, що надійний AI має ґрунтуватися на розумінні того, чому відповіді є правильними. Він зазначив, що відкритий доступ до набору даних відображає переконання в тому, що сильніший, більш пояснюваний AI приносить користь суспільству загалом.

Ці погляди перегукуються з занепокоєннями, які висловлюють дослідники щодо обмежень моделей, натренованих переважно на неструктурованому тексті.

Освітній масштаб і покриття доменів

Комбіновані набори даних Genesis I і II охоплюють 19 доменів із контентом, розробленим на рівнях середньої та вищої освіти. Предмети варіюються від базової математики та фізики до прикладних сфер, таких як економетрика та машинне навчання.

Кожен домен містить структуровані запитання, пояснення та траєкторії міркувань, призначені віддзеркалювати те, як концепції викладають і оцінюють у формальних освітніх середовищах. Такий дизайн має підтримувати задачі переднавчання, що потребують логічної узгодженості та концептуальної глибини.

Перегенеровуючи й розширюючи контент із використанням удосконалених методів, QVAC прагне уточнити, як освітні матеріали представлені в синтетичних наборах даних.

Оцінювання та продуктивність моделей

Згідно з внутрішніми та незалежними оцінками, на які посилається QVAC, моделі, навчені на даних Genesis II, демонструють покращену продуктивність у завданнях, де потрібні міркування. До них належить відповідь на структуровані запитання, пояснення висновків та уникання неоднозначних або суперечливих відповідей.

Результати оцінювання вказують, що поєднання Failure Analysis і Option-Level Reasoning призводить до більш послідовних виходів. Хоча компанія не позиціонувала набір даних як автономне рішення, вона представила його як сильну основу для подальшого навчання та доопрацювання.

Очікується, що дослідники проведуть додаткові оцінювання, оскільки набір даних набуватиме ширшого використання в спільноті.

Наслідки для відкритих досліджень AI

Випуск такого великого відкритого набору даних може вплинути на те, як академічні та незалежні дослідники підходять до навчання моделей. Доступ до структурованих навчальних даних у такому масштабі традиційно був обмежений добре фінансованими організаціями.

Надаючи альтернативу, QVAC Genesis II може підтримати експерименти з меншими моделями, локальні зусилля з навчання та дослідження методів пояснюваного AI.

Набір даних також може слугувати бенчмарком для майбутніх проєктів із синтетичних даних, які надаватимуть перевагу якості міркувань над простим розміром.

Позиція в ширшій AI-екосистемі

QVAC Genesis II входить в AI-екосистему, що характеризується швидким розвитком і зростанням концентрації ресурсів. Багато з найздатніших моделей навчаються на власницьких наборах даних, які недоступні для перевірки або відтворення.

Відкриті набори даних на кшталт Genesis II пропонують контрпункт, забезпечуючи прозорість і спільний прогрес. Вони також піднімають питання про те, як відкриті ресурси можуть співіснувати з комерційною розробкою AI.

Участь компанії, вкоріненої у фінтех і цифрових активах, підкреслює, що дослідження AI викликають інтерес у широкого спектра галузей за межами традиційних технологічних фірм.

Доступність і наступні кроки

Повна технічна документація для набору даних під назвою “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training” опублікована в дослідницькому блозі QVAC. Доступ до набору даних і пов’язаних моделей доступний через Hugging Face.

QVAC зазначила, що планує продовжувати вдосконалювати свої методи та розширювати освітнє покриття в майбутніх релізах. Очікується, що відгуки від дослідницької спільноти відіграватимуть роль у формуванні наступних ітерацій.

Продовжуваний поштовх до відкритих основ

З Genesis II QVAC підкріплює свою позицію, що відкриті, структуровані навчальні дані є необхідними для побудови надійних AI-систем. Реліз відображає погляд, що інтелект має ґрунтуватися на міркуваннях і поясненні, а не лише на статистичній асоціації.

У міру того як AI-системи стають більш інтегрованими в освіту, науку та фінансові сервіси, включно з фінтех-застосунками, якість їхніх навчальних даних залишатиметься ключовою проблемою.

Поки що розширений набір даних Genesis є помітним внеском у відкриті дослідження AI, пропонуючи масштаб, структуру та доступність на рівні, який рідко зустрічається поза власницькими середовищами.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateSquareAprilPostingChallenge
120.56K Популярність
#
CryptoMarketSeesVolatility
102.11K Популярність
#
IsraelStrikesIranBTCPlunges
21.42K Популярність
#
OilPricesRise
1.3M Популярність
#
IranLandmarkBridgeBombed
458.34K Популярність

Популярні активності Gate Fun
Дізнатися більше

1
BHR
黑马纪元
Рин. кап.:$2.26KХолдери:2
0.07%
2
LELE
乐乐
Рин. кап.:$2.22KХолдери:1
0.00%
3
op
op
Рин. кап.:$2.23KХолдери:1
0.00%
4
火箭
HJ
Рин. кап.:$2.23KХолдери:0
0.00%
5
SHRK
BABY SHARK O
Рин. кап.:$2.24KХолдери:2
0.24%

Закріпити

карта сайту

Tether розширює відкриті дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II

Велике розширення навчальних даних для Open AI

Спираючись на перший реліз Genesis

Зміна підходу до генерації навчальних даних

Акцент на розуміння замість плавності

Відкритий доступ для дослідників і розробників

Підтримка децентралізованої розробки AI

Роль Tether у дослідженнях AI

Погляд керівництва на реліз

Освітній масштаб і покриття доменів

Оцінювання та продуктивність моделей

Наслідки для відкритих досліджень AI

Позиція в ширшій AI-екосистемі

Доступність і наступні кроки

Продовжуваний поштовх до відкритих основ

Популярні теми

GateSquareAprilPostingChallenge

CryptoMarketSeesVolatility

IsraelStrikesIranBTCPlunges

OilPricesRise

IranLandmarkBridgeBombed

Популярні активності Gate Fun

BHR

黑马纪元

LELE

乐乐

op

op

火箭

HJ

SHRK

BABY SHARK O

Закріпити