Останні дослідження DGrid AI вирішують основну проблему у децентралізованому оцінюванні штучного інтелекту

DGrid AI представляє нову систему підтвердження якості (Proof of Quality), розроблену для оцінки результатів ШІ та покращення розподілу нагород у децентралізованих мережах.

Коротко

  • Нові дослідження DGrid AI у сфері PoQ вводять оцінювання без посилань, щоб нагороджувати вузли ШІ без необхідності мати правильну відповідь.
  • DGrid навчила спеціалізованих суддів ШІ для оцінки якості вихідних даних, покращуючи системи децентралізованих нагород ШІ у масштабі.
  • Нові моделі Proof of Quality від DGrid AI допомагають децентралізованим мережам ШІ точно оцінювати відповіді без даних істинної основи.

Децентралізовані мережі ШІ мають проблему з оплатою, яку дослідники вже роками тихо обходять, і недавня стаття від DGrid AI прямо ставить цю проблему на порядок денний. Системи оцінювання якості, що забезпечують нагороди вузлам, здебільшого залежать від наявності правильної відповіді для порівняння. У реальності такої відповіді рідко буває.

Ця стаття, четверта у серії досліджень DGrid щодо Proof of Quality (PoQ), пропонує навчений альтернативний підхід і публікує результати. PoQ використовує малі моделі-оцінювачі для оцінки якості кожного виходу, а ці оцінки визначають нагороди. Це дешево і масштабовано.

DGrid створювала цю систему поетапно: версію з урахуванням вартості, яка враховує затримки у розрахунках, рівень стійкості до шахрайства, що тримається, коли оцінювачі стають брехунами або лінивими, і рамки, що розділяють “якість” на частини для інспекції. Надійна інженерія. І кожен рівень стикався з однією й тією ж проблемою.

Як розвивався проблемний аспект оцінювання

Основна структура децентралізованої мережі для висновків створює проблему вимірювання. Незалежні вузли запускають мовні моделі та відповідають на запити користувачів. Ці відповіді потрібно оцінювати, оскільки оцінки визначають оплату. Криптографічна перевірка кожної обчислювальної операції була б технічно бездоганною, але надто дорогою у масштабі, тому практичним рішенням стало автоматичне оцінювання якості за допомогою менших моделей.

Попередні роботи DGrid поступово розвивали цей підхід, додаючи оплату з урахуванням затримок, захисти від шахраїв-оцінювачів і більш детальний розподіл поняття “якість”. Що не вдалося повністю вирішити — це сигнал оцінювання.

Найсильнішим сигналом для команди була семантична схожість: порівняння виходу моделі з відомою правильною відповіддю та вимірювання відстані між ними у просторі вбудовування. Це працює у тестових середовищах із наявністю референсних відповідей. У реальній мережі, де користувачі ставлять відкриті питання і немає базової істини, цей метод не підходить.

Готові рішення, що продаються у магазинах, показували гірші результати. Cross-encoder NLI, модель, що оцінює логічне підтвердження між реченнями, дав кореляцію Пірсона −0.363 при оцінюванні якості відповіді без референсної відповіді. Негативна кореляція означає, що модель частіше схилялася до поганих відповідей, ніж до хороших. Це не підходить для оцінювання.

Що пропонує стаття

Замість адаптації існуючих моделей дослідники навчали трьох суддів спеціально для оцінювання без посилань. Кожен бере запит і відповідь як вхід і видає оцінку від 0 до 10, без наявності правильної відповіді.

Три моделі відрізняються за розміром і швидкістю:

  • TextCNN (~10М параметрів) працює приблизно за 1 мілісекунду, підходить для швидкої первинної фільтрації.
  • MiniLM (22М параметрів) — посередині, близько 13 мілісекунд.
  • DeBERTa (184М параметрів) — близько 15 мілісекунд, оптимізована для точності.

Навчання проходило у два етапи. Спочатку моделі попередньо тренували на UltraFeedback — публічному наборі даних з відповідями, оціненими GPT-4, — перед донастроюванням на власному розподілі завдань мережі. Мета — дати суддям широку базову уяву про якість перед звуженням фокусу на конкретний контекст оцінювання.

Основний результат

На відкладеному тестовому наборі з 300 прикладів суддя DeBERTa досяг кореляції Пірсона 0.747 із проксі-міткою — без доступу до референсної відповіді. Оцінювачі з попередньої системи, що мали доступ до правильних відповідей, досягли максимуму 0.647.

Різниця пояснюється просто: старі оцінювачі використовували метрики схожості, що вимірювали косинусну відстань до референсного вбудовування. Нові судді оптимізовані для задачі оцінювання цілком. Різниця у продуктивності більше відображає цю різницю, ніж архітектурний прорив.

Однак автори застерігають: істина, що використовується тут, — це теж проксі — співвідношення слів на рівні токенів, а не людська оцінка. Судді добре корелюють із цим показником, але чи слово-співвідношення надійно відображає те, що б людина вважала якісною відповіддю — це окреме, невирішене питання.

Два функціональні елементи для розгортання системи: каскадна лінія, що спочатку пропускає запити через легку модель, і при невизначеності підвищує вагу важчих моделей, зменшуючи витрати оцінювання до 72.7% за найагресивнішого порогу, хоча кореляція зменшується до приблизно 0.51. Онлайн-метод калібрування, що працює без ручного налаштування, постійно визначає семантичну якість як головний сигнал і коригує ваги відповідно, збільшуючи її у 4.7 рази з початкового значення.

Де система ще має труднощі

Судді показують нерівну якість роботи залежно від типу завдання. У відповіді на питання кореляція досягає 0.830. У підсумку, у задачі підсумовування вона падає до 0.199. Стаття пояснює це не провалом суддів, а тим, що метрика оцінювання під час тренування — це слабкий показник якості підсумовування, оскільки співвідношення слів є поганим мірилом. Моделі, навчені на цьому, навчаються відслідковувати слабкий сигнал. Авторам це здається головною відкритою проблемою, а не тихою управлінською обмеженістю.

Це узгоджується з тим, як у цій статті подають результати — методично, з чітким описом невдач і покращень. Після чотирьох досліджень у цій галузі, робота виглядає швидше як поступове закриття прогалин, ніж як анонс продукту, що вже готовий до розгортання.

Розкриття інформації: Цей контент надається третьою стороною. Ниї crypto.news, ні автор цієї статті не підтримують жодних продуктів, згаданих на цій сторінці. Користувачам рекомендується самостійно досліджувати перед будь-якими діями, пов’язаними з компанією.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріплено