DGrid AI представляет новую систему Proof of Quality, разработанную для оценки результатов ИИ и улучшения распределения вознаграждений в децентрализованных сетях.

Резюме

Новое исследование DGrid AI по PoQ вводит оценивание без ссылочных данных для вознаграждения узлов ИИ без необходимости иметь правильные ответы.
DGrid обучила специализированных судей ИИ для оценки качества вывода, улучшая масштабируемые системы вознаграждения децентрализованного ИИ.
Новые модели Proof of Quality от DGrid AI помогают децентрализованным сетям ИИ точно оценивать ответы без данных о правильных ответах.

Децентрализованные сети ИИ имеют проблему с оплатой, которую исследователи тихо решали уже много лет, и недавняя статья от DGrid AI прямо ставит этот вопрос на повестку дня. Системы оценки качества, обеспечивающие вознаграждение узлов, в основном зависели от наличия правильного ответа для сравнения. На практике такой ответ редко существует.

Статья, четвертая в серии исследований DGrid по Proof of Quality (PoQ), предлагает обученную альтернативу и публикует результаты. PoQ использует небольшие модели оценщиков для оценки качества каждого вывода, и эти оценки определяют вознаграждения. Дешево и масштабируемо.

DGrid построила это поэтапно: версию с учетом задержек, которая включает задержку в расчет выплат, слой устойчивости к обману, который держится, когда оценщики лгут или ленятся, и структуру, которая разбивает “качество” на части для проверки. Надежная инженерия. И каждый слой сталкивался с одной и той же проблемой.

Как развивалась проблема оценки

Основная структура децентрализованной сети вывода создает проблему измерения. Независимые узлы запускают языковые модели и отвечают на запросы пользователей. Эти ответы нужно оценивать, потому что оценки определяют оплату. Криптографическая проверка каждого вычисления была бы технически безупречной, но слишком дорогой в масштабах, поэтому практическим решением стало автоматизированное качество оценки с помощью меньших моделей.

Ранее работы DGrid постепенно развивали этот подход, добавляя выплаты с учетом задержек, защиту от манипулятивных оценщиков и более детальное разбиение понятия “качество” в контексте оценки. Что полностью решить не удалось — так это сам сигнал оценки.

Самым сильным сигналом у команды была семантическая схожесть: сравнить вывод модели с известным правильным ответом и измерить расстояние между ними в пространстве встраивания. Это работает в тестовых средах, где есть эталонные ответы. В реальной сети, где пользователи задают открытые вопросы, а правильных ответов в базе данных нет, это не работает.

Готовые альтернативы показали худшие результаты. Cross-encoder для оценки логического следования между предложениями дал коэффициент корреляции Пирсона −0.363 при оценке качества ответов без эталонного ответа. Отрицательная корреляция означает, что модель скорее предпочитает плохие ответы хорошим. Это непригодный инструмент оценки.

Что предлагает статья

Вместо адаптации существующих моделей исследователи обучили трех судей специально для оценки качества без ссылочных данных. Каждый принимает вопрос и ответ как входные данные и выдает оценку от 0 до 10, без предоставления правильного ответа.

Три модели отличаются по размеру и скорости:

TextCNN (~10М параметров) работает примерно за 1 миллисекунду на вызов, подходит для быстрого первичного фильтра.
MiniLM (22М параметров) занимает около 13 миллисекунд.
DeBERTa (184М параметров) — примерно 15 миллисекунд и оптимизирована для точности.

Обучение проходило в два этапа. Сначала модели предварительно обучались на UltraFeedback — публичном наборе данных с ответами, оцененными GPT-4, — затем дообучались на собственной задаче сети. Цель — дать судьям общее понимание качества, прежде чем сосредоточиться на конкретной задаче оценки.

Основной результат

На отложенном тестовом наборе из 300 примеров судья DeBERTa достиг коэффициента корреляции Пирсона 0.747 с прокси-метрикой — без доступа к эталонному ответу. Оценщики с ссылками на правильные ответы из предыдущей системы достигали максимум 0.647.

Объяснение простое: старые оценщики измеряли косинусное расстояние к эталонному встраиванию. Новые судьи оптимизированы полностью под задачу оценки. Разница в эффективности отражает именно это, а не архитектурное прорыв.

Один из комментариев авторов: используемый здесь “истинный ответ” — это тоже прокси — совпадение слов на уровне токенов, а не человеческое суждение. Судьи хорошо коррелируют с этим метрикой, но насколько совпадение слов действительно отражает человеческое восприятие качества — вопрос открытый.

Две особенности для развертывания: каскадная система сначала использует легкую модель, а при неоднозначных оценках подключает более тяжелые, что снижает затраты оценки до 72.7% при самом агрессивном режиме, хотя корреляция при этом падает примерно до 0.51. Онлайн-калибровка, работающая без ручной настройки, постоянно выявляет семантическое качество как главный сигнал и корректирует веса, увеличивая его в 4.7 раза по сравнению с начальным.

Где система еще испытывает трудности

Оценщики работают неравномерно в разных задачах. В вопросах-ответах корреляция достигает 0.830. В суммировании — падает до 0.199. Статья объясняет это не ошибками судей, а метрикой оценки: простое совпадение слов плохо отражает качество суммирования, поэтому модели, обученные на ней, учатся отслеживать слабый сигнал. Авторы называют это основной открытой проблемой, а не скрытым ограничением.

Это описание согласуется с тем, как статья представляет свои результаты — методично, с четким указанием ошибок и улучшений. После четырех публикаций в этой области работа выглядит скорее как постепенное устранение пробелов, чем как анонс продукта, — команда намерена реально внедрить эти решения.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
MyGateTradeStory
965,74K Популярность
#
USIranTalksPostponed
1,89M Популярность
#
IsraelStrikesIranBTCPlunges
59,83K Популярность
#
PredictWorldCup🇺🇸vs🇵🇾
835,14K Популярность
#
TradFiCFDGoldMaster
1,82M Популярность

Закреплено

Карта сайта

Последние исследования DGrid AI затрагивают основную проблему в децентрализованном оценивании ИИ

Как развивалась проблема оценки

Что предлагает статья

Основной результат

Где система еще испытывает трудности

Популярные темы

MyGateTradeStory

USIranTalksPostponed

IsraelStrikesIranBTCPlunges

PredictWorldCup🇺🇸vs🇵🇾

TradFiCFDGoldMaster

Закреплено