Ф'ючерси
Сотні безстрокових контрактів
TradFi
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Акції
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
Tether розширює відкриті дані для навчання AI з випуском набору даних QVAC Genesis II
Відкрийте для себе найкращі новини та події у сфері фінтех!
Підписуйтеся на розсилку FinTech Weekly
Читають керівники JP Morgan, Coinbase, Blackrock, Klarna та інших
Значне розширення даних для тренування Open AI
Tether Data випустила нову версію свого синтетичного освітнього набору даних для штучного інтелекту, значно збільшивши обсяг і охоплення відкритих навчальних матеріалів, доступних дослідникам по всьому світу. Дослідницький відділ компанії, QVAC, оголосив, що новий реліз, під назвою QVAC Genesis II, додає 107 мільярдів токенів до попереднього набору даних, довівши загальний обсяг до 148 мільярдів токенів.
Розширений набір даних тепер є найбільшим публічно доступним синтетичним освітнім ресурсом, спеціально створеним для попереднього тренування AI. Він охоплює 19 академічних галузей і спрямований на покращення того, як моделі навчаються логіці, поясненням і прийняттю рішень, а не поверхневому розпізнаванню шаблонів.
Оголошення позиціонує реліз як крок до більш прозорого та доступного розвитку AI у час, коли багато передових тренувальних наборів залишаються закритими у власних системах.
Побудова на основі першого релізу Genesis
QVAC Genesis II базується на роботі, вперше представленій з Genesis I, яка зосереджувалася на створенні валідованого, орієнтованого на освіту синтетичного набору даних, що охоплює основні предмети науки, технологій, інженерії та математики. Цей попередній реліз заклав основу для генерації структурованих навчальних питань, спрямованих на покращення точності логіки.
Новий реліз розширює охоплення ще на десять галузей, включаючи хімію, інформатику, статистику, машинне навчання, астрономію, географію, економетрику та електротехніку. Також він повертається до фізики на рівні коледжу, оновлюючи її за допомогою нової методології, спрямованої на покращення концептуальної ясності.
Разом ці два релізи становлять те, що QVAC описує як наймасштабніший синтетичний освітній набір даних, доступний публічно. Набір даних призначений для використання у попередньому тренуванні великих мовних моделей та інших систем AI, що потребують структурованого академічного матеріалу.
Зміна підходу до генерації тренувальних даних
У центрі Genesis II — новий метод генерації даних, який називається Вибіркове Логічне Аналізування (Option-Level Reasoning). Цей підхід відрізняється від багатьох існуючих технік синтетичних даних тим, що фокусується не лише на неправильних відповідях, а й на правильних.
Замість того, щоб вважати правильну відповідь кінцевою точкою, цей метод аналізує кожен варіант відповіді у багатовибірковому питанні. Правильні варіанти розбиваються для підкріплення причин їх правильності, тоді як неправильні — для виправлення поширених помилок. Така структура дозволяє моделям навчатися причинно-наслідковому мисленню і логіці прийняття рішень, а не просто асоціювати питання з відповідями.
Цей підхід доповнює метод Аналізу Помилок, впроваджений у Genesis I, який зосереджувався на вилученні цінності з помилок моделей. Разом вони формують конвеєр, де кожне згенероване питання має навчальну цінність.
Незалежні оцінки, наведені QVAC, свідчать, що моделі, навчені на даних Genesis II, демонструють вищу точність логіки та більш чіткі відповіді, ніж ті, що тренувалися на попередніх синтетичних наборах даних.
Акцент на розумінні, а не на вільності мовлення
Більша частина сучасної екосистеми тренування AI базується на збиранні дуже великих обсягів тексту, часто з відкритих джерел, для покращення мовної плавності. Мета QVAC у цьому відрізняється. Набори даних Genesis структуровані так, щоб навчити моделі логічно розв’язувати проблеми та чітко пояснювати висновки.
Керівництво компанії зазначає, що їхня мета — перейти від систем тренування, що передбачають ймовірний текстовий ряд, до моделей, що демонструють розуміння основних концепцій. Дизайн набору даних орієнтований на ясність, причинність і логіку, щоб зменшити неоднозначність у вихідних даних моделей.
Цей підхід узгоджується з ширшими дискусіями в дослідженнях AI щодо надійності та пояснюваності, особливо коли системи AI використовуються в освіті, науці та підтримці прийняття рішень.
Відкритий доступ для дослідників і розробників
Як і оригінальний набір Genesis, QVAC Genesis II публічно доступний. Набір даних розповсюджується за ліцензією Creative Commons Attribution–NonCommercial 4.0, що дозволяє дослідникам, академічним установам і незалежним розробникам використовувати та вивчати дані поза комерційним контекстом.
Набір даних і пов’язані моделі розміщені на платформі Hugging Face, разом із детальним технічним документом, що описує методологію генерації та результати оцінки. Це відкритий розподіл має знизити бар’єри для дослідників, які не мають доступу до великих приватних наборів даних.
Зберігаючи некомерційну ліцензію, QVAC прагне підтримувати академічні та спільнотні дослідження, обмежуючи пряме комерційне використання.
Підтримка децентралізованого розвитку AI
Реліз також відповідає ширшій стратегії Tether Data щодо заохочення децентралізованого розвитку AI. Компанія заявила, що високоякісні тренувальні дані не повинні бути обмежені організаціями з доступом до централізованої хмарної інфраструктури.
Зробивши великомасштабні структуровані набори даних публічно доступними, QVAC прагне сприяти локальному тренуванню, експериментам і розгортанню моделей AI. Цей підхід має підтримувати дослідницькі середовища, де обчислювальні ресурси обмежені, але інтелектуальні внески мають значення.
Акцент на децентралізації відображає зростаючий інтерес до зменшення залежності від кількох домінуючих платформ AI і сприяння більш розподіленій екосистемі досліджень.
Роль Tether у дослідженнях AI
QVAC функціонує як дослідницький відділ AI компанії Tether Data. Хоча Tether широко відомий своєю роллю у цифрових активів і стейблкоінах, компанія розширила свою діяльність у сфері даних і досліджень AI останніми роками.
Завдяки QVAC, Tether Data зосереджена на створенні інфраструктури та ресурсів, що підтримують відкриті дослідження. Набори даних Genesis є одним із найпомітніших результатів цієї роботи, позиціонуючи компанію у дискусіях навколо відкритого розвитку AI і навчальних даних.
Ця робота також відображає зростаюче переплетення між фінтех-компаніями та передовими дослідженнями AI, оскільки фінансові технології дедалі більше інвестують у науку про дані та машинне навчання.
Погляд керівництва на реліз
Керівництво компанії охарактеризувало реліз Genesis II як відхід від підходів до тренування, що орієнтовані лише на обсяг. За словами представників Tether, головна мета — навчити системи AI логічно мислити і пояснювати, а не просто генерувати плавні відповіді.
Паоло Ардойно, головний виконавчий директор Tether, підкреслив, що надійний AI має базуватися на розумінні, чому відповіді є правильними. Він зазначив, що відкритий доступ до набору даних відображає переконання, що сильніший і більш пояснюваний AI приносить користь суспільству в цілому.
Ці погляди віддзеркалюють занепокоєння дослідників щодо обмежень моделей, навчених переважно на неструктурованому тексті.
Освітній спектр і охоплення галузей
Об’єднані набори даних Genesis I і II охоплюють 19 галузей, з контентом, розробленим для рівнів середньої та вищої освіти. Предмети варіюються від базової математики і фізики до прикладних галузей, таких як економетрика і машинне навчання.
Кожна галузь містить структуровані питання, пояснення і логічні шляхи, що імітують процес навчання і оцінювання у формальній освіті. Цей дизайн має підтримувати завдання попереднього тренування, що вимагають логічної послідовності і глибини концепцій.
Завдяки оновленню і розширенню контенту за допомогою покращених методів, QVAC прагне вдосконалити спосіб представлення освітнього матеріалу у синтетичних наборах даних.
Оцінка та продуктивність моделей
Згідно з внутрішніми та незалежними оцінками, посиланнями від QVAC, моделі, навчені на Genesis II, демонструють покращену продуктивність у завданнях, що вимагають логічного мислення. Це включає відповіді на структуровані питання, пояснення висновків і уникнення неоднозначних або суперечливих відповідей.
Результати оцінки свідчать, що поєднання Аналізу Помилок і Вибіркового Логічного Аналізу призводить до більш послідовних вихідних даних. Хоча компанія не позиціонує набір даних як самостійне рішення, вона вважає його міцною основою для подальшого тренування і доопрацювання.
Очікується, що дослідники проведуть додаткові оцінки, оскільки набір даних ширше використовується у спільноті.
Вплив на відкриті дослідження AI
Випуск такого великого відкритого набору даних може вплинути на підходи академічних і незалежних дослідників до тренування моделей. Доступ до структурованих освітніх даних у такому масштабі раніше був обмежений добре фінансованими організаціями.
Завдяки наданню альтернативи, QVAC Genesis II може підтримати експерименти з меншими моделями, локальним тренуванням і дослідженнями пояснюваного AI.
Цей набір даних також може слугувати еталоном для майбутніх проектів синтетичних даних, що орієнтовані на якість логіки понад кількість.
Позиція у ширшій екосистемі AI
QVAC Genesis II входить у екосистему AI, яка швидко розвивається і зосереджує ресурси. Багато найпотужніших моделей тренуються на приватних наборах даних, що недоступні для перевірки або відтворення.
Відкриті набори даних, такі як Genesis II, пропонують противагу, сприяючи прозорості та спільному прогресу. Вони також піднімають питання про те, як відкриті ресурси можуть співіснувати з комерційним розвитком AI.
Залучення компанії, що має корені у фінтех і цифрових активах, підкреслює, як дослідження AI привертає інтерес з різних галузей, окрім традиційних технологічних компаній.
Доступність і подальші кроки
Повний технічний опис набору даних під назвою “QVAC Genesis II: Розширення найбільшого та найвищої якості мультидоменного освітнього синтетичного набору даних для попереднього тренування” опубліковано у блозі досліджень QVAC. Доступ до набору даних і пов’язаних моделей можна отримати через Hugging Face.
QVAC заявила, що планує продовжувати вдосконалювати свої методи та розширювати освітнє охоплення у майбутніх релізах. Відгуки дослідницької спільноти відіграють важливу роль у формуванні наступних ітерацій.
Подальший рух у напрямку відкритих основ
З релізом Genesis II QVAC підсилює свою позицію, що відкриті, структуровані тренувальні дані є необхідними для створення надійних систем AI. Випуск відображає погляд, що інтелект має базуватися на логіці та поясненнях, а не лише на статистичних асоціаціях.
Оскільки системи AI стають дедалі більш інтегрованими у сфери освіти, науки і фінансових послуг, які включають фінтех-застосунки, якість їхніх тренувальних даних залишатиметься центральним питанням.
Поки що розширений набір Genesis є значним внеском у відкриті дослідження AI, пропонуючи масштаб, структуру і доступність на рівні, рідко доступному за межами приватних систем.