Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Tether розширює відкриті дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II
Відкрийте для себе топові новини та події у сфері фінтех!
Підпишіться на інформаційний бюлетень FinTech Weekly
Читають керівники JP Morgan, Coinbase, Blackrock, Klarna та інші
Велике розширення навчальних даних для Open AI
Tether Data випустила нову версію свого синтетичного навчального набору даних для штучного інтелекту, суттєво збільшивши обсяг і масштаб відкритих навчальних матеріалів, доступних дослідникам по всьому світу. Підрозділ AI-досліджень компанії, QVAC, повідомив, що новий реліз під назвою QVAC Genesis II додає 107 мільярдів токенів до попереднього набору даних, доводячи загальний розмір до 148 мільярдів токенів.
Розширений набір даних наразі є найбільшим публічно доступним синтетичним освітнім ресурсом, створеним спеціально для AI-претренінгу. Він охоплює 19 академічних дисциплін і має на меті покращити те, як моделі вчаться міркуванню, поясненню та прийняттю рішень, а не розпізнаванню шаблонів на поверхневому рівні.
Оголошення подає реліз як крок до більш прозорого й доступного розвитку AI — у час, коли багато передових навчальних наборів даних залишаються “закритими” в межах пропрієтарних систем.
Розвиток першого релізу Genesis
QVAC Genesis II спирається на роботу, уперше представлену в Genesis I, яка була зосереджена на створенні валідованого синтетичного набору даних, орієнтованого на освіту, що охоплює базові дисципліни з природничих наук, технологій, інженерії та математики. Той попередній реліз заклав основу для генерації структурованих навчальних питань, спрямованих на підвищення точності міркувань.
Новий реліз розширює охоплення на десять додаткових галузей, зокрема хімію, інформатику, статистику, машинне навчання, астрономію, географію, економетрику та електротехніку. Він також повертається до контенту з фізики рівня коледжу, регенеруючи його за допомогою оновленої методології, розробленої для покращення концептуальної ясності.
Разом ці два релізи, як описує QVAC, формують найбільш масштабний синтетичний освітній набір даних, який будь-коли було зроблено доступним для публіки. Набір даних призначений для використання в претренінгу великих мовних моделей та інших AI-систем, яким потрібен структурований академічний матеріал.
Зміна в тому, як генеруються навчальні дані
У основі Genesis II лежить новий метод генерації даних, який називають Option-Level Reasoning. Цей підхід відрізняється від багатьох наявних технік синтетичних даних тим, що фокусується не лише на неправильних відповідях, а й на правильних.
Замість того, щоб вважати коректну відповідь кінцем процесу, метод аналізує кожний варіант відповіді в питанні з вибором одного з кількох. Коректні варіанти розбираються, щоб підсилити, чому вони правильні, тоді як неправильні опції розглядаються, щоб усунути типові хибні уявлення. Така структура дозволяє моделям вчитися причинному мисленню та логіці прийняття рішень, а не просто пов’язувати запитання з результатами.
Цей підхід доповнює метод Failure Analysis, представлений у Genesis I, який був зосереджений на вилученні цінності з помилок моделі. Разом ці два методи утворюють конвеєр, у якому кожне згенероване питання створене так, щоб приносити навчальну цінність.
Незалежні оцінки, на які посилається QVAC, вказують, що моделі, натреновані на даних Genesis II, демонструють вищу точність міркувань і видають чіткіші відповіді, ніж ті, що тренувалися на попередніх синтетичних наборах даних.
Акцент на розумінні замість вільної “багатослівності”
Багато сучасної навчальної екосистеми AI покладається на складання дуже великих обсягів тексту, часто зібраного зі відкритих джерел, щоб покращити мовну плавність. Заявлена ціль QVAC відрізняється акцентом. Набори Genesis структуровані так, щоб навчати моделі тому, як міркувати над задачами й пояснювати висновки зрозуміло.
Керівництво компанії вказало, що намір полягає в тому, щоб вийти за межі тренувальних систем, які прогнозують найбільш ймовірні послідовності тексту, — до моделей, які демонструють розуміння базових концепцій. Дизайн набору даних надає пріоритет ясності, причинності та логіці, прагнучи зменшити неоднозначність у виводах моделей.
Такий підхід узгоджується з ширшими обговореннями в AI-дослідженнях щодо надійності та пояснюваності, особливо коли AI-системи застосовуються в освіті, науці та контекстах підтримки рішень.
Відкритий доступ для дослідників і розробників
Як і для оригінального набору даних Genesis, QVAC Genesis II випускається відкрито. Набір даних доступний за ліцензією Creative Commons Attribution–NonCommercial 4.0, що дозволяє дослідникам, академічним установам і незалежним розробникам використовувати й вивчати дані поза комерційними сценаріями.
Набір даних і пов’язані моделі розміщені на Hugging Face, разом із детальною технічною статтею, яка описує методологію генерації та результати оцінювання. Такий відкритий розподіл має на меті знизити бар’єри для дослідників, які не мають доступу до великих пропрієтарних наборів даних.
Зберігаючи некомерційне ліцензування, QVAC прагне підтримувати академічні та ініційовані спільнотою дослідження, водночас обмежуючи пряме комерційне використання.
Підтримка децентралізованого розвитку AI
Реліз також вписується в ширшу стратегію, яку Tether Data проводить, щоб стимулювати децентралізований розвиток AI. Компанія заявила, що високоякісні навчальні дані не слід обмежувати організаціями, які мають доступ до централізованої хмарної інфраструктури.
Роблячи великомасштабні структуровані набори даних публічно доступними, QVAC прагне дати змогу для локального тренування, експериментів і розгортання AI-моделей. Цей підхід покликаний підтримувати дослідницькі середовища, де обчислювальні ресурси можуть бути обмеженими, але інтелектуальний внесок залишається суттєвим.
Акцент на децентралізації відображає зростаючий інтерес до зменшення залежності від невеликої кількості домінантних AI-платформ і розвитку більш розподіленої дослідницької екосистеми.
Роль Tether у AI-дослідженнях
QVAC працює як підрозділ AI-досліджень Tether Data. Хоча Tether широко відома своєю роллю у цифрових активах і стейблкоїнах, компанія розширила свою діяльність у напрямі даних і AI-досліджень упродовж останніх років.
Через QVAC Tether Data зосередилася на створенні інфраструктури та ресурсів, що підтримують відкриті дослідження. Набори даних Genesis є одним із найпомітніших результатів цієї ініціативи, позиціонуючи компанію в дискусіях щодо відкритого розвитку AI та навчальних даних, орієнтованих на освіту.
Ця робота також відображає зростаюче перетинання між фінтех-компаніями та передовими AI-дослідженнями, оскільки фінансово-технологічні фірми дедалі частіше інвестують у можливості data science і машинного навчання.
Погляд керівництва на реліз
Керівництво компанії представило реліз Genesis II як крок від тренувальних підходів, що роблять ставку лише на обсяг. Фокус, за заявами з боку керівної команди Tether, полягає в навчанні AI-систем того, як міркувати й пояснювати, а не просто генерувати “плавні” відповіді.
Паоло Ардойно, CEO Tether, підкреслив, що надійний AI має ґрунтуватися на розумінні того, чому відповіді є правильними. Він зазначив, що те, що набір даних відкрито доступний, відображає переконання, що сильніший, більш пояснюваний AI приносить користь суспільству загалом.
Ці погляди перегукуються з занепокоєннями, які висловлювали дослідники щодо обмежень моделей, натренованих переважно на неструктурованому тексті.
Освітній масштаб і охоплення доменів
Сумарні набори даних Genesis I і II охоплюють 19 доменів із контентом, створеним на рівнях середньої та вищої освіти. Теми варіюються від базової математики та фізики до прикладних галузей, таких як економетрика та машинне навчання.
Кожний домен містить структуровані питання, пояснення та логічні траєкторії міркувань, призначені віддзеркалювати те, як концепції викладаються й оцінюються в формальних освітніх середовищах. Такий дизайн має на меті підтримувати завдання претренінгу, які потребують логічної узгодженості та концептуальної глибини.
Регенеруючи й розширюючи контент із застосуванням удосконалених методів, QVAC прагне уточнити те, як освітній матеріал репрезентується в синтетичних наборах даних.
Оцінювання та продуктивність моделей
Згідно з внутрішніми та незалежними оцінюваннями, на які посилається QVAC, моделі, натреновані на даних Genesis II, демонструють покращену продуктивність у задачах, що потребують міркувань. До них належать відповіді на структуровані запитання, пояснення висновків і уникання неоднозначних або суперечливих відповідей.
Результати оцінювання свідчать, що поєднання Failure Analysis і Option-Level Reasoning призводить до більш послідовних виводів. Хоча компанія не позиціонувала набір даних як окреме самодостатнє рішення, вона представила його як міцну основу для подальшого тренування та fine-tuning.
Очікується, що дослідники проведуть додаткові оцінювання, коли набір даних набуде ширшого використання в спільноті.
Наслідки для відкритих AI-досліджень
Випуск такого великого відкритого набору даних може вплинути на те, як академічні та незалежні дослідники підходять до тренування моделей. Доступ до структурованих навчальних даних у такому масштабі традиційно був обмежений для добре профінансованих організацій.
Надаючи альтернативу, QVAC Genesis II може підтримати експерименти з меншими моделями, локальні ініціативи тренування та дослідження методів пояснюваного AI.
Набір даних також може слугувати бенчмарком для майбутніх проєктів із синтетичними даними, які роблять ставку на якість міркувань, а не лише на обсяг.
Позиція в ширшій екосистемі AI
QVAC Genesis II входить в AI-екосистему, позначену швидким розвитком і зростанням концентрації ресурсів. Багато з найздібніших моделей тренуються на пропрієтарних наборах даних, які недоступні для перевірки або реплікації.
Відкриті набори даних на кшталт Genesis II пропонують контрапункт, забезпечуючи прозорість і спільний прогрес. Вони також піднімають питання про те, як відкриті ресурси можуть співіснувати з комерційним розвитком AI.
Участь компанії, що має коріння у фінтеху та цифрових активах, підкреслює, як AI-дослідження викликають інтерес у широкого кола галузей за межами традиційних технологічних компаній.
Доступність і наступні кроки
Повна технічна документація для набору даних під назвою “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training” опублікована в QVAC research blog. Доступ до набору даних і пов’язаних моделей доступний через Hugging Face.
QVAC вказала, що планує продовжувати вдосконалювати свої методи та розширювати освітнє охоплення в майбутніх релізах. Відгуки з дослідницької спільноти, як очікується, відіграватимуть роль у формуванні наступних ітерацій.
Подальший поштовх до відкритих фундаментів
З Genesis II QVAC підкріплює свою позицію, що відкриті, структуровані навчальні дані є критично важливими для побудови надійних AI-систем. Реліз відображає погляд, що інтелект має ґрунтуватися на міркуванні та поясненні, а не лише на статистичній асоціації.
Оскільки AI-системи стають дедалі більше інтегрованими в освіту, науку та фінансові послуги, включно з фінтех-застосунками, якість їхніх навчальних даних залишатиметься центральним питанням.
Поки що розширений набір даних Genesis є помітним внеском у відкриті AI-дослідження, пропонуючи масштаб, структуру та доступність на рівні, який рідко трапляється поза пропрієтарними середовищами.