Tether розширює відкриті дані для навчання Open AI за допомогою випуску набору даних QVAC Genesis II


Відкрийте для себе найкращі новини та події в галузі фінтеху!

Підпишіться на розсилку FinTech Weekly

Читають керівники в JP Morgan, Coinbase, Blackrock, Klarna та багатьох інших


Велике розширення навчальних даних для Open AI

Tether Data опублікувала нову версію свого синтетичного навчального датасету для штучного інтелекту, суттєво збільшивши обсяг і сферу відкритих навчальних матеріалів, доступних дослідникам у всьому світі. Дивізіон AI-досліджень компанії, QVAC, оголосив, що новий реліз під назвою QVAC Genesis II додає 107 мільярдів токенів до попереднього датасету, доводячи загальний розмір до 148 мільярдів токенів.

Розширений датасет наразі є найбільшим публічно доступним синтетичним навчальним ресурсом, створеним спеціально для AI передтренування. Він охоплює 19 академічних доменів і призначений для покращення того, як моделі вчаться міркувань, пояснень і прийняття рішень, а не поверхневого розпізнавання шаблонів.

Оголошення позиціонує реліз як крок до більш прозорого та доступного розвитку AI — у той час, коли багато передових навчальних датасетів усе ще залишаються заблокованими в межах власницьких систем.

Спираючись на перший реліз Genesis

QVAC Genesis II спирається на роботу, вперше представлену з Genesis I, який був зосереджений на створенні валідованого синтетичного датасету, орієнтованого на освіту, що охоплює базові предмети з природничих наук, технологій, інженерії та математики. Той попередній реліз заклав основу для генерації структурованих навчальних запитань, спрямованих на підвищення точності міркувань.

Новий реліз розширює охоплення ще на десять додаткових сфер, включно з хімією, інформатикою, статистикою, машинним навчанням, астрономією, географією, економетрикою та електротехнікою. Він також переглядає контент з фізики на рівні коледжу, регенеруючи його за допомогою оновленої методології, розробленої для покращення концептуальної ясності.

Разом ці два релізи становлять те, що QVAC описує як наймасштабніший синтетичний освітній датасет, доступний для публіки на сьогодні. Датасет призначений для використання під час передтренування великих мовних моделей та інших AI-систем, яким потрібен структурований академічний матеріал.

Зміна підходу до того, як генеруються навчальні дані

У основі Genesis II лежить новий метод генерації даних, який називають Option-Level Reasoning. Цей підхід відрізняється від багатьох існуючих технік синтетичних даних тим, що фокусується не лише на неправильних відповідях, а й на правильних.

Замість того, щоб розглядати правильну відповідь як завершення процесу, метод аналізує кожний варіант відповіді в запитанні з вибором. Правильні варіанти розбираються, щоб підкреслити, чому вони є правильними, тоді як неправильні варіанти аналізуються для усунення типових хибних уявлень. Така структура дозволяє моделям вчитися причинним міркуванням і логіці прийняття рішень, а не просто асоціювати запитання з результатами.

Цей підхід доповнює метод Failure Analysis, представлений у Genesis I, який був зосереджений на витяганні цінності з помилок моделей. Разом ці два методи утворюють конвеєр, у якому кожне згенероване запитання призначене для внеску в навчальну цінність.

Незалежні оцінювання, на які посилається QVAC, вказують, що моделі, натреновані на даних Genesis II, демонструють вищу точність міркувань і дають чіткіші відповіді, ніж ті, що тренувалися на попередніх синтетичних датасетах.

Акцент на розумінні замість плавності

Чимало нинішньої екосистеми навчання AI покладається на складання дуже великих обсягів тексту, часто зібраного з відкритих джерел, щоб покращити мовну плавність. Заявлена QVAC ціль відрізняється за акцентом. Датасети Genesis структуровані так, щоб навчати моделі міркувати через задачі та пояснювати висновки зрозумілим способом.

Керівництво компанії зазначило, що намір полягає в тому, щоб вийти за межі систем тренування, які прогнозують імовірні послідовності тексту, на користь моделей, що демонструють розуміння базових концепцій. Дизайн датасету надає пріоритет ясності, причинності та логіці, прагнучи зменшити неоднозначність у результатах моделей.

Цей підхід узгоджується з ширшими обговореннями в дослідженнях AI щодо надійності та пояснюваності, особливо коли AI-системи використовуються в освіті, науці та контекстах підтримки прийняття рішень.

Відкритий доступ для дослідників і розробників

Як і у випадку з оригінальним датасетом Genesis, QVAC Genesis II випускається відкрито. Датасет доступний за ліцензією Creative Commons Attribution–NonCommercial 4.0, що дозволяє дослідникам, академічним інституціям та незалежним розробникам використовувати й вивчати дані поза межами комерційних середовищ.

Датасет і пов’язані моделі розміщені на Hugging Face, разом із детальним технічним paper, який описує методологію генерації та результати оцінювання. Такий відкритий розподіл має на меті знизити бар’єри для дослідників, які не мають доступу до великих власницьких датасетів.

Зберігаючи некомерційне ліцензування, QVAC прагне підтримувати академічні та орієнтовані на спільноту дослідження, обмежуючи при цьому пряме комерційне використання.

Підтримка децентралізованого розвитку AI

Реліз також вписується в ширшу стратегію, яку Tether Data проводить, щоб заохочувати децентралізований розвиток AI. Компанія заявила, що високоякісні навчальні дані не повинні бути обмежені організаціями, які мають доступ до централізованої хмарної інфраструктури.

Надаючи у відкритий доступ публічно доступні великомасштабні структуровані датасети, QVAC прагне дати змогу локальне тренування, експерименти та розгортання AI-моделей. Такий підхід має на меті підтримувати дослідницькі середовища, де обчислювальні ресурси можуть бути обмеженими, але інтелектуальний внесок залишається значним.

Акцент на децентралізації відображає зростаючий інтерес до зменшення залежності від невеликої кількості домінантних AI-платформ і сприяння більш розподіленій дослідницькій екосистемі.

Роль Tether у дослідженнях AI

QVAC працює як дивізіон AI-досліджень Tether Data. Хоча Tether широко відома своєю роллю в цифрових активах і стейблкоїнах, компанія розширила свою діяльність у сфері даних та AI-досліджень упродовж останніх років.

Через QVAC Tether Data зосередилася на створенні інфраструктури та ресурсів, що підтримують відкрите дослідження. Датасети Genesis є одним із найпомітніших результатів цієї ініціативи, позиціонуючи компанію в дискусіях щодо відкритого розвитку AI та навчальних даних, орієнтованих на освіту.

Ця робота також відображає зростаючий перетин між фінтех-компаніями та передовими AI-дослідженнями, оскільки фінансово-технологічні компанії дедалі частіше інвестують у можливості науки про дані та машинного навчання.

Погляд керівництва на реліз

Керівництво компанії сформулювало реліз Genesis II як крок від підходів до тренування, які надають пріоритет лише обсягу. Фокус, згідно із заявами виконавчої команди Tether, полягає в тому, щоб навчати AI-системи міркувати та пояснювати, а не просто генерувати плавні відповіді.

Паоло Ардойно, генеральний директор Tether, підкреслив, що надійний AI має ґрунтуватися на розумінні того, чому відповіді є правильними. Він зазначив, що надання датасету у відкритий доступ відображає переконання в тому, що сильніший, більш пояснюваний AI приносить користь суспільству загалом.

Ці погляди перегукуються з занепокоєннями, які висловлюють дослідники щодо обмежень моделей, натренованих переважно на неструктурованому тексті.

Освітній обсяг і охоплення доменів

Комбіновані датасети Genesis I і II охоплюють 19 доменів, а контент розроблено на рівні середньої та вищої освіти. Предмети варіюються від базової математики та фізики до прикладних сфер, таких як економетрика та машинне навчання.

Кожен домен містить структуровані запитання, пояснення та маршрути міркувань, призначені для відтворення того, як концепції викладаються й оцінюються в формальних освітніх умовах. Такий дизайн має на меті підтримувати завдання передтренування, які потребують логічної узгодженості та концептуальної глибини.

Регенеруючи та розширюючи контент за допомогою покращених методів, QVAC прагне уточнити, як освітній матеріал представлений у синтетичних датасетах.

Оцінювання та ефективність моделей

Згідно з внутрішніми та незалежними оцінюваннями, на які посилається QVAC, моделі, натреновані на даних Genesis II, демонструють покращену продуктивність у задачах, що потребують міркувань. До них належать відповіді на структуровані запитання, пояснення висновків та уникнення неоднозначних або суперечливих відповідей.

Результати оцінювання вказують, що поєднання Failure Analysis і Option-Level Reasoning призводить до більш послідовних результатів. Хоча компанія не позиціонувала датасет як самостійне рішення, вона представила його як міцну основу для подальшого тренування та доопрацювання (fine-tuning).

Очікується, що дослідники проводитимуть додаткові оцінювання, оскільки датасет отримає ширше використання в спільноті.

Наслідки для відкритих досліджень AI

Випуск такого великого відкритого датасету може вплинути на те, як академічні та незалежні дослідники підходять до тренування моделей. Доступ до структурованих навчальних даних такого масштабу традиційно був обмежений добре фінансованими організаціями.

Надаючи альтернативу, QVAC Genesis II може підтримувати експерименти з меншими моделями, локальні зусилля з тренування та дослідження методів пояснюваного AI.

Датасет також може слугувати еталоном для майбутніх проєктів синтетичних даних, які надають пріоритет якості міркувань над просто розміром.

Позиція в ширшій AI-екосистемі

QVAC Genesis II входить в AI-екосистему, позначену швидким розвитком і зростаючою концентрацією ресурсів. Багато з найздібніших моделей тренуються на власницьких датасетах, які недоступні для перевірки або реплікації.

Відкриті датасети на кшталт Genesis II пропонують противагу, забезпечуючи прозорість і спільний прогрес. Вони також піднімають запитання про те, як відкриті ресурси можуть співіснувати з комерційним розвитком AI.

Залучення компанії, що має коріння у фінтеху та цифрових активах, підкреслює, як AI-дослідження привертають інтерес із широкого кола індустрій за межами традиційних технологічних компаній.

Доступність і наступні кроки

Повна технічна документація для датасету, що має назву “QVAC Genesis II: Expanding the Largest and Highest-Quality Multi-domain Educational Synthetic Dataset for Pre-training,” була опублікована в блозі досліджень QVAC. Доступ до датасету та пов’язаних моделей доступний через Hugging Face.

QVAC зазначила, що планує й надалі вдосконалювати свої методи та розширювати охоплення освіти в майбутніх релізах. Очікується, що відгуки від дослідницької спільноти відіграватимуть роль у формуванні наступних ітерацій.

Постійний поштовх до відкритих основ

З Genesis II QVAC підкріплює свою позицію, що відкриті, структуровані навчальні дані є необхідними для побудови надійних AI-систем. Реліз відображає бачення, що інтелект має ґрунтуватися на міркуванні й поясненні, а не лише на статистичних асоціаціях.

Коли AI-системи стають дедалі більш інтегрованими в освіту, науку та фінансові послуги, включно з фінтех-додатками, якість їхніх навчальних даних залишатиметься центральним питанням.

Поки що розширений датасет Genesis є помітним внеском у відкриті дослідження AI, пропонуючи масштаб, структуру та доступність на рівні, який рідко трапляється поза власницькими середовищами.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити