Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Launchpad
Будьте першими в наступному великому проекту токенів
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Tether розширює відкриті дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II
Відкрийте для себе найкращі новини та події в галузі фінтеху!
Підпишіться на розсилку FinTech Weekly
Читають керівники в JP Morgan, Coinbase, Blackrock, Klarna та багатьох інших
Велике розширення навчальних даних для Open AI
Tether Data опублікувала нову версію свого синтетичного навчального датасету для штучного інтелекту, суттєво збільшивши обсяг і сферу відкритих навчальних матеріалів, доступних дослідникам у всьому світі. Дивізіон AI-досліджень компанії, QVAC, оголосив, що новий реліз під назвою QVAC Genesis II додає 107 мільярдів токенів до попереднього датасету, доводячи загальний розмір до 148 мільярдів токенів.
Розширений датасет наразі є найбільшим публічно доступним синтетичним навчальним ресурсом, створеним спеціально для AI передтренування. Він охоплює 19 академічних доменів і призначений для покращення того, як моделі вчаться міркувань, пояснень і прийняття рішень, а не поверхневого розпізнавання шаблонів.
Оголошення позиціонує реліз як крок до більш прозорого та доступного розвитку AI — у той час, коли багато передових навчальних датасетів усе ще залишаються заблокованими в межах власницьких систем.
Спираючись на перший реліз Genesis
QVAC Genesis II спирається на роботу, вперше представлену з Genesis I, який був зосереджений на створенні валідованого синтетичного датасету, орієнтованого на освіту, що охоплює базові предмети з природничих наук, технологій, інженерії та математики. Той попередній реліз заклав основу для генерації структурованих навчальних запитань, спрямованих на підвищення точності міркувань.
Новий реліз розширює охоплення ще на десять додаткових сфер, включно з хімією, інформатикою, статистикою, машинним навчанням, астрономією, географією, економетрикою та електротехнікою. Він також переглядає контент з фізики на рівні коледжу, регенеруючи його за допомогою оновленої методології, розробленої для покращення концептуальної ясності.
Разом ці два релізи становлять те, що QVAC описує як наймасштабніший синтетичний освітній датасет, доступний для публіки на сьогодні. Датасет призначений для використання під час передтренування великих мовних моделей та інших AI-систем, яким потрібен структурований академічний матеріал.
Зміна підходу до того, як генеруються навчальні дані
У основі Genesis II лежить новий метод генерації даних, який називають Option-Level Reasoning. Цей підхід відрізняється від багатьох існуючих технік синтетичних даних тим, що фокусується не лише на неправильних відповідях, а й на правильних.
Замість того, щоб розглядати правильну відповідь як завершення процесу, метод аналізує кожний варіант відповіді в запитанні з вибором. Правильні варіанти розбираються, щоб підкреслити, чому вони є правильними, тоді як неправильні варіанти аналізуються для усунення типових хибних уявлень. Така структура дозволяє моделям вчитися причинним міркуванням і логіці прийняття рішень, а не просто асоціювати запитання з результатами.
Цей підхід доповнює метод Failure Analysis, представлений у Genesis I, який був зосереджений на витяганні цінності з помилок моделей. Разом ці два методи утворюють конвеєр, у якому кожне згенероване запитання призначене для внеску в навчальну цінність.
Незалежні оцінювання, на які посилається QVAC, вказують, що моделі, натреновані на даних Genesis II, демонструють вищу точність міркувань і дають чіткіші відповіді, ніж ті, що тренувалися на попередніх синтетичних датасетах.
Акцент на розумінні замість плавності
Чимало нинішньої екосистеми навчання AI покладається на складання дуже великих обсягів тексту, часто зібраного з відкритих джерел, щоб покращити мовну плавність. Заявлена QVAC ціль відрізняється за акцентом. Датасети Genesis структуровані так, щоб навчати моделі міркувати через задачі та пояснювати висновки зрозумілим способом.
Керівництво компанії зазначило, що намір полягає в тому, щоб вийти за межі систем тренування, які прогнозують імовірні послідовності тексту, на користь моделей, що демонструють розуміння базових концепцій. Дизайн датасету надає пріоритет ясності, причинності та логіці, прагнучи зменшити неоднозначність у результатах моделей.
Цей підхід узгоджується з ширшими обговореннями в дослідженнях AI щодо надійності та пояснюваності, особливо коли AI-системи використовуються в освіті, науці та контекстах підтримки прийняття рішень.
Відкритий доступ для дослідників і розробників
Як і у випадку з оригінальним датасетом Genesis, QVAC Genesis II випускається відкрито. Датасет доступний за ліцензією Creative Commons Attribution–NonCommercial 4.0, що дозволяє дослідникам, академічним інституціям та незалежним розробникам використовувати й вивчати дані поза межами комерційних середовищ.
Датасет і пов’язані моделі розміщені на Hugging Face, разом із детальним технічним paper, який описує методологію генерації та результати оцінювання. Такий відкритий розподіл має на меті знизити бар’єри для дослідників, які не мають доступу до великих власницьких датасетів.
Зберігаючи некомерційне ліцензування, QVAC прагне підтримувати академічні та орієнтовані на спільноту дослідження, обмежуючи при цьому пряме комерційне використання.
Підтримка децентралізованого розвитку AI
Реліз також вписується в ширшу стратегію, яку Tether Data проводить, щоб заохочувати децентралізований розвиток AI. Компанія заявила, що високоякісні навчальні дані не повинні бути обмежені організаціями, які мають доступ до централізованої хмарної інфраструктури.
Надаючи у відкритий доступ публічно доступні великомасштабні структуровані датасети, QVAC прагне дати змогу локальне тренування, експерименти та розгортання AI-моделей. Такий підхід має на меті підтримувати дослідницькі середовища, де обчислювальні ресурси можуть бути обмеженими, але інтелектуальний внесок залишається значним.
Акцент на децентралізації відображає зростаючий інтерес до зменшення залежності від невеликої кількості домінантних AI-платформ і сприяння більш розподіленій дослідницькій екосистемі.
Роль Tether у дослідженнях AI
QVAC працює як дивізіон AI-досліджень Tether Data. Хоча Tether широко відома своєю роллю в цифрових активах і стейблкоїнах, компанія розширила свою діяльність у сфері даних та AI-досліджень упродовж останніх років.
Через QVAC Tether Data зосередилася на створенні інфраструктури та ресурсів, що підтримують відкрите дослідження. Датасети Genesis є одним із найпомітніших результатів цієї ініціативи, позиціонуючи компанію в дискусіях щодо відкритого розвитку AI та навчальних даних, орієнтованих на освіту.
Ця робота також відображає зростаючий перетин між фінтех-компаніями та передовими AI-дослідженнями, оскільки фінансово-технологічні компанії дедалі частіше інвестують у можливості науки про дані та машинного навчання.
Погляд керівництва на реліз
Керівництво компанії сформулювало реліз Genesis II як крок від підходів до тренування, які надають пріоритет лише обсягу. Фокус, згідно із заявами виконавчої команди Tether, полягає в тому, щоб навчати AI-системи міркувати та пояснювати, а не просто генерувати плавні відповіді.
Паоло Ардойно, генеральний директор Tether, підкреслив, що надійний AI має ґрунтуватися на розумінні того, чому відповіді є правильними. Він зазначив, що надання датасету у відкритий доступ відображає переконання в тому, що сильніший, більш пояснюваний AI приносить користь суспільству загалом.
Ці погляди перегукуються з занепокоєннями, які висловлюють дослідники щодо обмежень моделей, натренованих переважно на неструктурованому тексті.
Освітній обсяг і охоплення доменів
Комбіновані датасети Genesis I і II охоплюють 19 доменів, а контент розроблено на рівні середньої та вищої освіти. Предмети варіюються від базової математики та фізики до прикладних сфер, таких як економетрика та машинне навчання.
Кожен домен містить структуровані запитання, пояснення та маршрути міркувань, призначені для відтворення того, як концепції викладаються й оцінюються в формальних освітніх умовах. Такий дизайн має на меті підтримувати завдання передтренування, які потребують логічної узгодженості та концептуальної глибини.
Регенеруючи та розширюючи контент за допомогою покращених методів, QVAC прагне уточнити, як освітній матеріал представлений у синтетичних датасетах.
Оцінювання та ефективність моделей
Згідно з внутрішніми та незалежними оцінюваннями, на які посилається QVAC, моделі, натреновані на даних Genesis II, демонструють покращену продуктивність у задачах, що потребують міркувань. До них належать відповіді на структуровані запитання, пояснення висновків та уникнення неоднозначних або суперечливих відповідей.
Результати оцінювання вказують, що поєднання Failure Analysis і Option-Level Reasoning призводить до більш послідовних результатів. Хоча компанія не позиціонувала датасет як самостійне рішення, вона представила його як міцну основу для подальшого тренування та доопрацювання (fine-tuning).
Очікується, що дослідники проводитимуть додаткові оцінювання, оскільки датасет отримає ширше використання в спільноті.
Наслідки для відкритих досліджень AI
Випуск такого великого відкритого датасету може вплинути на те, як академічні та незалежні дослідники підходять до тренування моделей. Доступ до структурованих навчальних даних такого масштабу традиційно був обмежений добре фінансованими організаціями.
Надаючи альтернативу, QVAC Genesis II може підтримувати експерименти з меншими моделями, локальні зусилля з тренування та дослідження методів пояснюваного AI.
Датасет також може слугувати еталоном для майбутніх проєктів синтетичних даних, які надають пріоритет якості міркувань над просто розміром.
Позиція в ширшій AI-екосистемі
QVAC Genesis II входить в AI-екосистему, позначену швидким розвитком і зростаючою концентрацією ресурсів. Багато з найздібніших моделей тренуються на власницьких датасетах, які недоступні для перевірки або реплікації.
Відкриті датасети на кшталт Genesis II пропонують противагу, забезпечуючи прозорість і спільний прогрес. Вони також піднімають запитання про те, як відкриті ресурси можуть співіснувати з комерційним розвитком AI.
Залучення компанії, що має коріння у фінтеху та цифрових активах, підкреслює, як AI-дослідження привертають інтерес із широкого кола індустрій за межами традиційних технологічних компаній.
Доступність і наступні кроки
Повна технічна документація для датасету, що має назву “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” була опублікована в блозі досліджень QVAC. Доступ до датасету та пов’язаних моделей доступний через Hugging Face.
QVAC зазначила, що планує й надалі вдосконалювати свої методи та розширювати охоплення освіти в майбутніх релізах. Очікується, що відгуки від дослідницької спільноти відіграватимуть роль у формуванні наступних ітерацій.
Постійний поштовх до відкритих основ
З Genesis II QVAC підкріплює свою позицію, що відкриті, структуровані навчальні дані є необхідними для побудови надійних AI-систем. Реліз відображає бачення, що інтелект має ґрунтуватися на міркуванні й поясненні, а не лише на статистичних асоціаціях.
Коли AI-системи стають дедалі більш інтегрованими в освіту, науку та фінансові послуги, включно з фінтех-додатками, якість їхніх навчальних даних залишатиметься центральним питанням.
Поки що розширений датасет Genesis є помітним внеском у відкриті дослідження AI, пропонуючи масштаб, структуру та доступність на рівні, який рідко трапляється поза власницькими середовищами.