Tether розширює відкриті дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II

SleepTrader

2026-03-30 16:31:00

Відкрийте для себе найкращі новини та події у фінтеху!

Підпишіться на розсилку бюлетеня FinTech Weekly

Читають керівники в JP Morgan, Coinbase, Blackrock, Klarna та багатьох інших

Велике розширення навчальних даних для Open AI

Tether Data опублікувала нову версію свого синтетичного навчального набору даних для штучного інтелекту, суттєво збільшивши обсяг і масштаб відкритого навчального матеріалу, доступного дослідникам у всьому світі. Підрозділ AI-досліджень компанії, QVAC, оголосив, що новий реліз під назвою QVAC Genesis II додає 107 мільярдів токенів до попереднього набору даних, доводячи загальний обсяг до 148 мільярдів токенів.

Розширений набір даних наразі є найбільшим публічно доступним синтетичним освітнім ресурсом, створеним спеціально для попереднього навчання ШІ. Він охоплює 19 академічних дисциплін і має на меті покращити, як моделі засвоюють міркування, пояснення та ухвалення рішень, а не поверхневе розпізнавання патернів.

Оголошення позиціонує реліз як крок до більш прозорого й доступного розвитку ШІ — у час, коли багато передових навчальних наборів даних залишаються заблокованими в межах власницьких систем.

Розвиток першого релізу Genesis

QVAC Genesis II спирається на роботу, вперше представлену з Genesis I, яка була зосереджена на створенні валідованого синтетичного набору даних, орієнтованого на освіту, що охоплює базові предмети природничих наук, технологій, інженерії та математики. Той попередній реліз заклав основу для генерації структурованих навчальних запитань, спрямованих на підвищення точності міркувань.

Новий реліз розширює охоплення ще на десять дисциплін, включно з хімією, інформатикою, статистикою, машинним навчанням, астрономією, географією, економетрикою та електротехнікою. Також він переглядає контент з фізики на рівні коледжу, регенеруючи його із використанням оновленої методології, розробленої для покращення концептуальної ясності.

Разом ці два релізи, за описом QVAC, формують найбільш масштабний синтетичний освітній набір даних, який досі зроблено доступним для публіки. Набір даних призначений для використання під час попереднього навчання великих мовних моделей та інших систем ШІ, яким потрібен структурований академічний матеріал.

Зміна в тому, як генеруються навчальні дані

У основі Genesis II лежить новий метод генерації даних, який називають Option-Level Reasoning. Цей підхід відрізняється від багатьох існуючих технік синтетичних даних тим, що фокусується не лише на неправильних відповідях, але й на правильних.

Замість того, щоб вважати правильну відповідь завершенням процесу, метод аналізує кожний варіант відповіді в багатоваріантному запитанні. Точні варіанти розкладаються на складові, щоб підсилити розуміння того, чому вони правильні, тоді як неправильні варіанти розглядаються для усунення поширених хибних уявлень. Така структура дозволяє моделям вивчати причинне мислення та логіку прийняття рішень, а не просто пов’язувати запитання з результатами.

Підхід доповнює метод Failure Analysis, представлений у Genesis I, який був спрямований на вилучення цінності з помилок моделі. Разом ці два методи утворюють конвеєр, у якому кожне згенероване запитання створюється так, щоб приносити навчальну цінність.

Незалежні оцінювання, на які посилається QVAC, свідчать, що моделі, навчені на даних Genesis II, демонструють вищу точність міркувань і дають чіткіші відповіді, ніж ті, що навчалися на попередніх синтетичних наборах даних.

Акцент на розумінні, а не на швидкості/вільності

Багато екосистем сучасного навчання ШІ покладаються на складання дуже великих обсягів тексту, часто зібраного з публічних джерел, щоб підвищити мовну плавність. Заявлена мета QVAC відрізняється акцентом. Набори даних Genesis структуровані так, щоб навчати моделі тому, як міркувати про проблеми та пояснювати висновки зрозуміло.

Керівництво компанії вказало, що намір полягає в тому, щоб вийти за межі систем навчання, які прогнозують імовірні послідовності тексту, — до моделей, які демонструють розуміння базових концепцій. У дизайні набору даних пріоритет віддається ясності, причинності та логіці, щоб зменшити неоднозначність у результатах роботи моделей.

Такий підхід узгоджується з ширшими дискусіями в дослідженнях ШІ щодо надійності та пояснюваності — особливо коли системи ШІ використовуються в освіті, науці та контекстах підтримки ухвалення рішень.

Відкритий доступ для дослідників і розробників

Як і для оригінального набору даних Genesis, QVAC Genesis II публікується у відкритому доступі. Набір даних доступний за ліцензією Creative Commons Attribution–NonCommercial 4.0, що дозволяє дослідникам, академічним установам і незалежним розробникам використовувати та вивчати дані поза комерційними сценаріями.

Набір даних і супровідні моделі розміщено на Hugging Face, разом із детальним технічним документом, який описує методологію генерації та результати оцінювання. Такий відкритий розподіл має на меті знизити бар’єри для дослідників, які не мають доступу до великих власницьких наборів даних.

Зберігаючи неліцензійне (некомерційне) використання, QVAC прагне підтримувати академічні та ініційовані спільнотою дослідження, одночасно обмежуючи пряме комерційне експлуатування.

Підтримка децентралізованого розвитку ШІ

Реліз також вписується в ширшу стратегію, яку проводить Tether Data, щоб заохочувати децентралізований розвиток ШІ. Компанія заявила, що високоякісні навчальні дані не мають бути обмежені організаціями, які мають доступ до централізованої хмарної інфраструктури.

Зробивши доступними публічно великі за масштабом структуровані набори даних, QVAC прагне дати змогу місцевому навчальному процесу, експериментам і розгортанню моделей ШІ. Цей підхід має на меті підтримувати дослідницькі середовища, де обчислювальні ресурси можуть бути обмеженими, але інтелектуальний внесок залишається значним.

Акцент на децентралізації відображає зростаючий інтерес до зменшення залежності від невеликої кількості домінантних платформ ШІ та формування більш розподіленої дослідницької екосистеми.

Роль Tether у дослідженнях ШІ

QVAC працює як підрозділ AI-досліджень Tether Data. Хоча Tether широко відомий своєю роллю в цифрових активах і стейблкоїнах, компанія розширила свою діяльність у напрямку даних і досліджень ШІ впродовж останніх років.

Через QVAC Tether Data зосередився на створенні інфраструктури та ресурсів, що підтримують відкриті дослідження. Набори даних Genesis є одним із найпомітніших результатів цього зусилля, позиціонуючи компанію в дискусіях про відкритий розвиток ШІ та навчальні дані, орієнтовані на освіту.

Ця робота також відображає зростання перетину між фінтех-компаніями та передовими AI-дослідженнями, адже фінансові технологічні фірми дедалі частіше інвестують у можливості науки про дані та машинного навчання.

Погляд керівництва на реліз

Керівництво компанії подало реліз Genesis II як крок від підходів до навчання, які віддають пріоритет лише обсягу. Фокус, згідно із заявами з боку виконавчої команди Tether, полягає в тому, щоб навчити системи ШІ міркувати й пояснювати — а не просто генерувати плавні відповіді.

Paolo Ardoino, генеральний директор Tether, наголосив, що надійний ШІ має ґрунтуватися на розумінні того, чому відповіді є правильними. Він зазначив, що відкритий доступ до набору даних відображає переконання в тому, що сильніший, більш пояснюваний ШІ приносить користь суспільству загалом.

Ці погляди перегукуються із занепокоєннями, які висловлюють дослідники щодо обмежень моделей, навчених насамперед на неструктурованому тексті.

Освітній масштаб і охоплення доменів

Сукупні набори даних Genesis I і II охоплюють 19 доменів, а контент підготовлено на рівнях середньої та вищої освіти. Предмети варіюються від базової математики та фізики до прикладних сфер, таких як економетрика та машинне навчання.

Кожний домен містить структуровані запитання, пояснення та траєкторії міркувань, які мають імітувати те, як концепції викладають і оцінюють у формальних освітніх середовищах. Такий дизайн має на меті підтримувати задачі попереднього навчання, що потребують логічної узгодженості та концептуальної глибини.

Регенеруючи й розширюючи контент із використанням удосконалених методів, QVAC прагне уточнити, як освітній матеріал представлено в синтетичних наборах даних.

Оцінювання та продуктивність моделей

Згідно з внутрішніми та незалежними оцінюваннями, на які посилається QVAC, моделі, навчені на даних Genesis II, демонструють покращену продуктивність у завданнях, що потребують міркувань. Це включає відповідь на структуровані запитання, пояснення висновків і уникнення неоднозначних або суперечливих відповідей.

Результати оцінювання вказують, що поєднання Failure Analysis і Option-Level Reasoning призводить до більш послідовних результатів. Хоча компанія не позиціонувала набір даних як окреме самодостатнє рішення, вона представила його як надійну основу для подальшого навчання та доопрацювання (fine-tuning).

Очікується, що дослідники проведуть додаткові оцінювання, щойно набір даних отримає ширше використання в спільноті.

Наслідки для відкритих досліджень Open AI

Публікація такого великого відкритого набору даних може вплинути на те, як академічні та незалежні дослідники підходять до навчання моделей. Доступ до структурованих освітніх даних у такому масштабі традиційно був обмежений лише добре профінансованими організаціями.

Надаючи альтернативу, QVAC Genesis II може підтримати експерименти з меншими моделями, локальні зусилля з навчання та дослідження методів пояснюваного ШІ.

Набір даних також може слугувати бенчмарком для майбутніх проєктів із синтетичних даних, які надають перевагу якості міркувань над самим лише обсягом.

Позиція в ширшій AI-екосистемі

QVAC Genesis II входить до AI-екосистеми, що характеризується швидким розвитком і зростаючою концентрацією ресурсів. Багато з найздатніших моделей навчаються на власницьких наборах даних, які недоступні для перевірки або відтворення.

Відкриті набори даних на кшталт Genesis II пропонують противагу, забезпечуючи прозорість і спільний прогрес. Вони також піднімають питання про те, як відкриті ресурси можуть співіснувати з комерційним розвитком ШІ.

Залучення компанії, що має коріння в фінтеху та цифрових активах, підкреслює, як дослідження ШІ викликають інтерес у широкого кола індустрій за межами традиційних технологічних фірм.

Доступність і наступні кроки

Повна технічна документація для набору даних під назвою “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training” була опублікована на блозі досліджень QVAC. Доступ до набору даних і пов’язаних моделей доступний через Hugging Face.

QVAC зазначив, що планує й надалі вдосконалювати свої методи та розширювати освітнє охоплення в майбутніх релізах. Очікується, що відгуки від дослідницької спільноти відіграватимуть роль у формуванні подальших ітерацій.

Безперервний поштовх до відкритих основ

З Genesis II QVAC підкріплює свою позицію, що відкриті, структуровані навчальні дані є необхідними для побудови надійних систем ШІ. Реліз відображає погляд, що інтелект має ґрунтуватися на міркуваннях і поясненнях, а не лише на статистичній асоціації.

Оскільки системи ШІ стають дедалі інтегрованішими в освіту, науку та фінансові послуги, включно з фінтех-застосунками, якість їхніх навчальних даних залишатиметься ключовим питанням.

Поки що розширений набір даних Genesis є помітним внеском у відкриті дослідження Open AI — він пропонує масштаб, структуру та доступність на рівні, який рідко трапляється поза власницькими середовищами.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
GateGoldenTouch
67.78K Популярність
#
CryptoMarketsRiseBroadly
31.39K Популярність
#
IsraelStrikesIranBTCPlunges
19.32K Популярність
#
PowellDovishRemarksReviveRateCutHopes
2.82M Популярність
#
TrumpSignalsPossibleCeasefire
408.81K Популярність

Популярні активності Gate Fun
Дізнатися більше

1
mb
macbook
Рин. кап.:$2.27KХолдери:2
0.00%
2
TBKB
特不靠谱
Рин. кап.:$2.37KХолдери:2
1.04%
3
ch
chill
Рин. кап.:$2.24KХолдери:1
0.00%
4
MIP
MIP
Рин. кап.:$2.24KХолдери:1
0.00%
5
Usdc
Usdc
Рин. кап.:$2.25KХолдери:1
0.00%

Закріпити

карта сайту

Tether розширює відкриті дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II

Велике розширення навчальних даних для Open AI

Розвиток першого релізу Genesis

Зміна в тому, як генеруються навчальні дані

Акцент на розумінні, а не на швидкості/вільності

Відкритий доступ для дослідників і розробників

Підтримка децентралізованого розвитку ШІ

Роль Tether у дослідженнях ШІ

Погляд керівництва на реліз

Освітній масштаб і охоплення доменів

Оцінювання та продуктивність моделей

Наслідки для відкритих досліджень Open AI

Позиція в ширшій AI-екосистемі

Доступність і наступні кроки

Безперервний поштовх до відкритих основ

Популярні теми

GateGoldenTouch

CryptoMarketsRiseBroadly

IsraelStrikesIranBTCPlunges

PowellDovishRemarksReviveRateCutHopes

TrumpSignalsPossibleCeasefire

Популярні активності Gate Fun

mb

macbook

TBKB

特不靠谱

ch

chill

MIP

MIP

Usdc

Usdc

Закріпити