Tether розширює дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II

SleepTrader

2026-03-18 06:48:19

Відкрийте для себе найкращі новини та події у сфері фінтех!

Підписуйтеся на розсилку FinTech Weekly

Читають керівники JP Morgan, Coinbase, Blackrock, Klarna та інших компаній

Значне розширення даних для тренування Open AI

Tether Data випустила нову версію свого синтетичного освітнього набору даних для штучного інтелекту, що суттєво збільшило обсяг і охоплення відкритих навчальних матеріалів, доступних дослідникам по всьому світу. Відділ досліджень AI компанії, QVAC, оголосив, що новий реліз, під назвою QVAC Genesis II, додає 107 мільярдів токенів до попереднього набору даних, довівши загальний обсяг до 148 мільярдів токенів.

Розширений набір даних є наразі найбільшим публічно доступним синтетичним освітнім ресурсом, спеціально створеним для попереднього тренування AI. Він охоплює 19 академічних галузей і спрямований на покращення здатності моделей навчатися логіці, поясненням і прийняттю рішень, а не лише поверхневому розпізнаванню шаблонів.

Цей реліз позиціонується як крок до більш прозорого та доступного розвитку AI, оскільки багато передових тренувальних наборів досі залишаються закритими у власних системах.

Побудова на основі першого релізу Genesis

QVAC Genesis II базується на роботі, вперше представленій з Genesis I, яка зосереджувалася на створенні валідованого, орієнтованого на освіту синтетичного набору даних, що охоплює основні предмети науки, технологій, інженерії та математики. Цей попередній реліз заклав основу для генерації структурованих навчальних питань, спрямованих на покращення точності логіки.

Новий реліз розширює охоплення ще на десять галузей, включаючи хімію, інформатику, статистику, машинне навчання, астрономію, географію, економетрику та електротехніку. Також він повертається до фізики на рівні коледжу, оновлюючи її за допомогою нової методології для покращення концептуальної ясності.

Разом ці два релізи становлять те, що QVAC називає наймасштабнішим синтетичним освітнім набором даних, доступним публічно. Він призначений для попереднього тренування великих мовних моделей та інших систем AI, що потребують структурованого академічного матеріалу.

Зміна підходу до генерації тренувальних даних

У основі Genesis II лежить новий метод генерації даних, який називається Option-Level Reasoning. Цей підхід відрізняється від багатьох існуючих технік синтетичних даних тим, що фокусується не лише на неправильних відповідях, а й на правильних.

Замість того, щоб вважати правильну відповідь кінцевою точкою, цей метод аналізує кожен варіант відповіді у багатовибірковому питанні. Правильні варіанти розбиваються для підкріплення причин їх правильності, а неправильні — для виправлення поширених помилок. Така структура дозволяє моделям навчатися причинно-наслідковому мисленню і логіці прийняття рішень, а не просто асоціювати питання з відповідями.

Цей підхід доповнює метод аналізу помилок, впроваджений у Genesis I, який зосереджувався на вилученні цінності з помилок моделей. Разом вони формують конвеєр, у якому кожне згенероване питання має навчальну цінність.

Незалежні оцінки, наведені QVAC, свідчать, що моделі, треновані на даних Genesis II, демонструють вищу точність логіки та більш чіткі відповіді, ніж ті, що тренувалися на попередніх синтетичних наборах даних.

Акцент на розумінні, а не лише на плавності

Більша частина сучасної екосистеми тренування AI базується на збиранні дуже великих обсягів тексту, часто зібраного з публічних джерел, для покращення мовної плавності. Мета QVAC у цьому відрізняється. Набори даних Genesis структуровані так, щоб навчити моделі логічно розв’язувати проблеми та чітко пояснювати висновки.

Керівництво компанії зазначає, що їхня мета — перейти від систем тренування, що передбачають ймовірний текстовий ряд, до моделей, що демонструють розуміння основних концепцій. Дизайн набору даних орієнтований на ясність, причинність і логіку, щоб зменшити неоднозначність у вихідних даних моделей.

Цей підхід узгоджується з ширшими дискусіями в дослідженнях AI щодо надійності та пояснюваності, особливо коли системи AI використовуються в освіті, науці та підтримці прийняття рішень.

Відкритий доступ для дослідників і розробників

Як і у випадку з оригінальним набором Genesis, QVAC Genesis II випускається відкрито. Набір даних доступний за ліцензією Creative Commons Attribution–NonCommercial 4.0, що дозволяє дослідникам, академічним установам і незалежним розробникам використовувати та вивчати дані поза комерційним контекстом.

Набір даних та пов’язані моделі розміщені на платформі Hugging Face, разом із детальним технічним документом, що описує методологію генерації та результати оцінки. Це відкритий розподіл має знизити бар’єри для дослідників, які не мають доступу до великих власних наборів даних.

Зберігаючи ліцензію без комерційних обмежень, QVAC прагне підтримувати академічні та спільнотні дослідження, обмежуючи пряме комерційне використання.

Підтримка децентралізованого розвитку AI

Реліз також відповідає ширшій стратегії Tether Data щодо заохочення децентралізованого розвитку AI. Компанія заявила, що високоякісні тренувальні дані не повинні бути доступні лише організаціям із централізованою хмарною інфраструктурою.

Зробивши великомасштабні структуровані набори даних публічно доступними, QVAC прагне сприяти локальному тренуванню, експериментам і розгортанню моделей AI. Такий підхід має підтримувати дослідницькі середовища, де обчислювальні ресурси обмежені, але інтелектуальні внески мають велике значення.

Акцент на децентралізації відображає зростаючий інтерес до зменшення залежності від кількох домінуючих платформ AI і сприяння більш розподіленій екосистемі досліджень.

Роль Tether у дослідженнях AI

QVAC функціонує як дослідницький підрозділ Tether Data. Хоча Tether широко відомий своєю роллю у цифрових активів і стейблкоінах, останні роки компанія розширила свою діяльність у сферу даних і досліджень AI.

Завдяки QVAC Tether Data зосереджена на створенні інфраструктури та ресурсів, що підтримують відкриті дослідження. Набори Genesis є одними з найпомітніших результатів цієї роботи, позиціонуючи компанію у дискусіях про відкритий розвиток AI і навчальні дані.

Ця діяльність також відображає зростаюче перетин фінансових технологій і передових досліджень AI, оскільки фінтех-компанії дедалі більше інвестують у науку про дані та машинне навчання.

Погляд керівництва на реліз

Керівництво компанії охарактеризувало реліз Genesis II як відхід від підходів до тренування, що орієнтовані лише на обсяг. За словами представників Tether, головна мета — навчити системи AI логічно мислити і пояснювати, а не просто генерувати плавні відповіді.

Паоло Ардойно, керівник Tether, підкреслив, що надійний AI має базуватися на розумінні, чому відповіді є правильними. Він зазначив, що відкритий доступ до набору даних відображає переконання, що сильніший і більш пояснюваний AI приносить користь суспільству в цілому.

Ці погляди співзвучні з побоюваннями дослідників щодо обмежень моделей, тренованих переважно на неструктурованому тексті.

Освітній спектр і охоплення галузей

Об’єднані набори даних Genesis I і II охоплюють 19 галузей, з контентом, розробленим для рівнів середньої та вищої освіти. Предмети варіюються від базової математики і фізики до прикладних галузей, таких як економетрика і машинне навчання.

Кожна галузь містить структуровані питання, пояснення та логічні шляхи, що імітують процес навчання і оцінювання у формальній освіті. Це має підтримувати задачі попереднього тренування, що вимагають логічної послідовності та глибини концепцій.

Завдяки оновленим методам генерації та розширенню контенту, QVAC прагне вдосконалити спосіб представлення освітнього матеріалу у синтетичних наборах даних.

Оцінка та продуктивність моделей

Згідно з внутрішніми та незалежними оцінками, посиланнями від QVAC, моделі, треновані на даних Genesis II, демонструють покращену здатність до логічного мислення. Це включає відповіді на структуровані питання, пояснення висновків і уникнення неоднозначних або суперечливих відповідей.

Результати оцінки свідчать, що поєднання аналізу помилок і Option-Level Reasoning дає більш послідовні результати. Хоча компанія не позиціонує цей набір даних як самостійне рішення, вона вважає його міцною основою для подальшого тренування і доопрацювання.

Очікується, що дослідники проведуть додаткові оцінки, оскільки набір даних ширше використовується у спільноті.

Наслідки для відкритих досліджень AI

Випуск такого великого відкритого набору даних може вплинути на підходи академічних і незалежних дослідників до тренування моделей. Доступ до структурованих освітніх даних у такому масштабі раніше був обмежений організаціями з великими ресурсами.

Завдяки наданню альтернативи, QVAC Genesis II може підтримати експерименти з меншими моделями, локальним тренуванням і дослідженнями пояснюваного AI.

Цей набір даних також може слугувати еталоном для майбутніх проектів синтетичних даних, що орієнтовані на якість логіки понад кількість.

Позиція у ширшій екосистемі AI

QVAC Genesis II входить у швидко розвиваючуся екосистему AI, де ресурси концентруються у кількох домінуючих компаніях. Багато найпотужніших моделей тренуються на закритих наборах даних, що недоступні для аналізу або відтворення.

Відкриті набори даних, такі як Genesis II, пропонують противагу, сприяючи прозорості та спільному прогресу. Водночас виникають питання, як відкриті ресурси можуть співіснувати з комерційним розвитком AI.

Залучення компанії з досвідом у фінтех і цифрових активах підкреслює, що дослідження AI залучає інтерес і з інших галузей, окрім традиційних технологічних компаній.

Доступність і подальші кроки

Повна технічна документація щодо набору даних під назвою “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training” опублікована у блозі досліджень QVAC. Доступ до набору даних і пов’язаних моделей можна отримати через Hugging Face.

QVAC планує продовжувати вдосконалювати свої методи та розширювати освітнє охоплення у майбутніх релізах. Відгуки дослідницької спільноти відіграватимуть важливу роль у формуванні наступних версій.

Подальший рух у напрямку відкритих основ

З релізом Genesis II QVAC підкреслює свою позицію, що відкриті структуровані тренувальні дані є ключовими для створення надійних систем AI. Вони відображають погляд, що інтелект має базуватися на логіці та поясненнях, а не лише на статистичних асоціаціях.

Зі зростанням інтеграції систем AI у освіту, науку та фінансові сервіси, які включають фінтех-застосунки, якість тренувальних даних залишатиметься центральним питанням.

Поки що розширений набір Genesis є значним внеском у відкриті дослідження AI, пропонуючи масштаб, структуру та доступність, які рідко зустрічаються поза межами закритих систем.

Переглянути оригінал

Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.

Нагородити
подобається
Прокоментувати
Репост
Поділіться

Прокоментувати

Додати коментар

Немає коментарів

Популярні теми
Дізнатися більше
#
Gate13thAnniversaryGlobalCelebration
16.63M Популярність
#
GateAIGateClawOfficiallyLaunches
392.13K Популярність
#
IsraelStrikesIranBTCPlunges
14.4K Популярність
#
SECAndCFTCNewGuidelines
23.09K Популярність
#
FedRateDecision
3.51M Популярність

Популярні активності Gate Fun
Дізнатися більше

1
BDS
北帝山
Рин. кап.:$0.1Холдери:1
0.00%
2
GIAOT
Giaot
Рин. кап.:$2.46KХолдери:1
0.00%
3
BTCS6
BTCS6
Рин. кап.:$2.45KХолдери:1
0.00%
4
山寨产品
山寨产品
Рин. кап.:$0.1Холдери:1
0.00%
5
gate
gate
Рин. кап.:$2.45KХолдери:1
0.00%

Закріпити

карта сайту

Tether розширює дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II

Значне розширення даних для тренування Open AI

Побудова на основі першого релізу Genesis

Зміна підходу до генерації тренувальних даних

Акцент на розумінні, а не лише на плавності

Відкритий доступ для дослідників і розробників

Підтримка децентралізованого розвитку AI

Роль Tether у дослідженнях AI

Погляд керівництва на реліз

Освітній спектр і охоплення галузей

Оцінка та продуктивність моделей

Наслідки для відкритих досліджень AI

Позиція у ширшій екосистемі AI

Доступність і подальші кроки

Подальший рух у напрямку відкритих основ

Популярні теми

Gate13thAnniversaryGlobalCelebration

GateAIGateClawOfficiallyLaunches

IsraelStrikesIranBTCPlunges

SECAndCFTCNewGuidelines

FedRateDecision

Популярні активності Gate Fun

BDS

北帝山

GIAOT

Giaot

BTCS6

BTCS6

山寨产品

山寨产品

gate

gate

Закріпити