Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Tether розширює відкриті дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II
Відкрийте для себе найкращі новини та події у фінтеху!
Підпишіться на розсилку FinTech Weekly
Читають керівники в JP Morgan, Coinbase, Blackrock, Klarna та інших
Значне розширення навчальних даних для Open AI
Tether Data опублікувала нову версію свого синтетичного навчального набору даних для штучного інтелекту, суттєво збільшивши обсяг і масштаб відкритих матеріалів для навчання, доступних дослідникам по всьому світу. Підрозділ досліджень ШІ компанії, QVAC, оголосив, що новий реліз під назвою QVAC Genesis II додає 107 мільярдів токенів до його попереднього набору даних, доводячи загальний обсяг до 148 мільярдів токенів.
Розширений набір даних нині є найбільшим публічно доступним синтетичним навчальним ресурсом, створеним спеціально для попереднього навчання ШІ. Він охоплює 19 академічних доменів і призначений покращувати те, як моделі вчаться міркувати, пояснювати та приймати рішення, а не розпізнавати патерни на поверхневому рівні.
Оголошення позиціонує реліз як крок до більш прозорого та доступного розвитку ШІ — у той час, коли багато передових навчальних наборів даних залишаються замкненими в пропрієтарних системах.
Спираючись на перший реліз Genesis
QVAC Genesis II розвиває роботу, вперше представлену в Genesis I, яка була зосереджена на створенні валідованого синтетичного набору даних, орієнтованого на освіту, що охоплює базові предмети з природничих наук, технологій, інженерії та математики. Той попередній реліз заклав рамки для створення структурованих навчальних запитань, спрямованих на підвищення точності міркувань.
Новий реліз розширює охоплення ще на десять додаткових сфер, включно з хімією, інформатикою, статистикою, машинним навчанням, астрономією, географією, економетрикою та електротехнікою. Він також переглядає навчальний контент із фізики на рівні коледжу, генеруючи його заново за допомогою оновленої методології, розробленої для покращення концептуальної ясності.
Разом ці два релізи, за описом QVAC, формують найобширніший синтетичний навчальний набір даних, який досі було зроблено доступним для публіки. Набір даних призначений для використання під час попереднього навчання великих мовних моделей та інших систем ШІ, яким потрібен структурований академічний матеріал.
Зміна підходу до генерації навчальних даних
У основі Genesis II лежить новий метод генерації даних, що називається Option-Level Reasoning (міркування на рівні варіантів). Цей підхід відрізняється від багатьох наявних технік синтетичних даних тим, що фокусується не лише на неправильних відповідях, а й на правильних.
Замість того, щоб розглядати коректну відповідь як завершення процесу, метод аналізує кожен варіант відповіді в тестовому запитанні з вибором одного з кількох варіантів. Правильні варіанти розкладаються, щоб підсилити розуміння того, чому вони є правильними, тоді як неправильні варіанти досліджуються, щоб усунути типові хибні уявлення. Така структура дозволяє моделям навчатися причинному міркуванню та логіці прийняття рішень, а не просто пов’язувати запитання з результатами.
Цей підхід доповнює метод Failure Analysis, представлений у Genesis I, який був зосереджений на витягуванні цінності з помилок моделі. Разом обидва методи формують конвеєр, у якому кожне згенероване запитання має бути призначене для внеску в навчальну цінність.
Незалежні оцінювання, на які посилається QVAC, вказують, що моделі, натреновані на даних Genesis II, демонструють вищу точність міркувань і видають чіткіші відповіді, ніж моделі, натреновані на попередніх синтетичних наборах даних.
Акцент на розумінні, а не на вільному викладі
Багато з поточної екосистеми навчання ШІ покладається на збирання дуже великих обсягів тексту, часто зібраного з публічних джерел, щоб підвищувати мовну плавність. Заявлена мета QVAC відрізняється акцентом. Набори даних Genesis структуровані так, щоб навчати моделі міркувати через задачі та пояснювати висновки зрозумілим чином.
Керівництво компанії вказувало, що намір полягає в тому, щоб вийти за межі систем навчання, які прогнозують ймовірні послідовності тексту, — до моделей, що демонструють розуміння базових концепцій. Дизайн набору даних надає пріоритет ясності, причинності та логіці, націлюючись на зменшення неоднозначності в результатах моделей.
Такий підхід узгоджується з ширшими дискусіями в дослідженнях ШІ щодо надійності та пояснюваності, особливо коли системи ШІ використовуються в освіті, науці та контекстах підтримки ухвалення рішень.
Відкритий доступ для дослідників і розробників
Як і у випадку з початковим набором даних Genesis, QVAC Genesis II також виходить у відкритий доступ. Набір даних доступний за ліцензією Creative Commons Attribution–NonCommercial 4.0, що дозволяє дослідникам, академічним установам та незалежним розробникам використовувати й вивчати дані поза комерційними умовами.
Набір даних і пов’язані моделі розміщені на Hugging Face, а також там є детальна технічна стаття, яка описує методологію генерації та результати оцінювання. Такий відкритий розподіл призначений для зниження бар’єрів для дослідників, які не мають доступу до великих пропрієтарних наборів даних.
Зберігаючи неконмерційне ліцензування, QVAC прагне підтримувати академічні та орієнтовані на спільноту дослідження, водночас обмежуючи пряме комерційне використання.
Підтримка децентралізованого розвитку ШІ
Реліз також вписується в ширшу стратегію, яку Tether Data проводить, щоб стимулювати децентралізований розвиток ШІ. Компанія заявила, що високоякісні навчальні дані не мають бути обмежені організаціями, які мають доступ до централізованої хмарної інфраструктури.
Зробивши публічно доступними великі за масштабом структуровані набори даних, QVAC прагне дати змогу локальному навчанню, експериментам і розгортанню моделей ШІ. Такий підхід має на меті підтримувати дослідницькі середовища, де обчислювальні ресурси можуть бути обмеженими, але інтелектуальні внески залишаються значними.
Акцент на децентралізації відображає зростання інтересу до зменшення залежності від невеликої кількості домінантних платформ ШІ та до формування більш розподіленої дослідницької екосистеми.
Роль Tether у дослідженнях ШІ
QVAC функціонує як підрозділ досліджень ШІ Tether Data. Хоча Tether широко відомий завдяки своїй ролі в цифрових активах і стейблкоїнах, компанія розширила свою діяльність у напрямі даних та досліджень ШІ впродовж останніх років.
Через QVAC Tether Data зосередився на створенні інфраструктури та ресурсів, які підтримують відкриті дослідження. Набори даних Genesis є одним із найнаочніших результатів цього зусилля, позиціонуючи компанію в обговореннях навколо відкритого розвитку ШІ та навчальних наборів даних, орієнтованих на освіту.
Ця робота також відображає зростаюче перетинання між фінтех-компаніями та передовими дослідженнями ШІ, адже фірми фінансових технологій дедалі частіше інвестують у можливості з науки про дані та машинного навчання.
Погляд керівництва на реліз
Керівництво компанії розглянуло реліз Genesis II як крок від навчальних підходів, що роблять ставку лише на обсяг. Фокус, згідно із заявами з боку керівної команди Tether, полягає в тому, щоб навчити системи ШІ міркувати та пояснювати — а не просто генерувати плавні відповіді.
Паоло Ардойно, генеральний директор Tether, підкреслив, що надійний ШІ має ґрунтуватися на розумінні того, чому відповіді є правильними. Він також зазначив, що зробити набір даних відкритим відображає переконання, ніби сильніший, більш пояснюваний ШІ приносить користь суспільству загалом.
Ці погляди перегукуються з занепокоєннями, які висували дослідники щодо обмежень моделей, натренованих переважно на неструктурованому тексті.
Освітній масштаб і охоплення доменів
Об’єднані набори даних Genesis I і II охоплюють 19 доменів, причому контент створений для рівнів середньої та вищої освіти. Предмети варіюються від базових розділів математики та фізики до прикладних сфер, таких як економетрика та машинне навчання.
Кожен домен містить структуровані запитання, пояснення та траєкторії міркувань, призначені для відтворення того, як концепції викладають і оцінюють у формальних освітніх середовищах. Такий дизайн має підтримувати завдання попереднього навчання, що потребують логічної узгодженості та концептуальної глибини.
Завдяки регенерації та розширенню контенту за допомогою покращених методів, QVAC прагне уточнити те, як освітній матеріал представлений у синтетичних наборах даних.
Оцінювання та ефективність моделей
Згідно з внутрішніми та незалежними оцінюваннями, на які посилається QVAC, моделі, натреновані на даних Genesis II, демонструють покращену ефективність у завданнях, де домінують міркування. До них належать відповідь на структуровані запитання, пояснення висновків і уникнення неоднозначних або суперечливих відповідей.
Результати оцінювання вказують, що поєднання Failure Analysis і Option-Level Reasoning призводить до більш послідовних результатів. Хоча компанія не позиціонує набір даних як самостійне рішення, вона подає його як сильну основу для подальшого навчання та тонкого налаштування.
Очікується, що дослідники проведуть додаткові оцінювання в міру того, як набір даних ширше використовуватиметься в спільноті.
Наслідки для відкритих досліджень ШІ
Публікація такого великого відкритого набору даних може вплинути на те, як академічні та незалежні дослідники підходитимуть до навчання моделей. Доступ до структурованих освітніх даних у такому масштабі традиційно був обмежений добре профінансованими організаціями.
Надаючи альтернативу, QVAC Genesis II може підтримати експерименти з меншими моделями, локальні зусилля з навчання та дослідження методів пояснюваного ШІ.
Набір даних також може слугувати бенчмарком для майбутніх проєктів синтетичних даних, які надають перевагу якості міркувань над самим лише масштабом.
Позиція в ширшій екосистемі ШІ
QVAC Genesis II входить в екосистему ШІ, позначену швидким розвитком і зростанням концентрації ресурсів. Багато з найбільш здатних моделей навчаються на пропрієтарних наборах даних, які не доступні для перевірки або відтворення.
Відкриті набори даних на кшталт Genesis II пропонують контраргумент: вони дають прозорість і спільний прогрес. Вони також піднімають питання про те, як відкриті ресурси можуть співіснувати з комерційним розвитком ШІ.
Залучення компанії, що має коріння у фінтеху та цифрових активах, підкреслює, як дослідження ШІ викликають інтерес у широкого кола галузей за межами традиційних технологічних фірм.
Доступність і наступні кроки
Повна технічна документація для набору даних під назвою “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training” опублікована в дослідницькому блозі QVAC. Доступ до набору даних і пов’язаних моделей доступний через Hugging Face.
QVAC вказав, що планує й надалі вдосконалювати свої методи та розширювати охоплення освітнього контенту в майбутніх релізах. Очікується, що зворотний зв’язок від дослідницької спільноти відіграватиме роль у формуванні наступних ітерацій.
Продовжуваний поштовх до відкритих основ
З Genesis II QVAC підкріплює свою позицію, що відкриті, структуровані навчальні дані є критично важливими для побудови надійних систем ШІ. Реліз відображає погляд, що інтелект має ґрунтуватися на міркуванні та поясненні, а не лише на статистичній асоціації.
Якщо системи ШІ стають все більш інтегрованими у сфери освіти, науки та фінансових послуг, включно з фінтех-застосунками, якість їхніх навчальних даних залишатиметься центральним питанням.
Поки що розширений набір даних Genesis є помітним внеском у відкриті дослідження ШІ, пропонуючи масштаб, структуру та доступність на рівні, який рідко зустрічається поза межами пропрієтарних середовищ.