Plurai 的 barred 框架通过给定任务描述和少量无标注样本，自动生成合成训练数据，从而训练出定制的内容护栏，用于审核 AI 输出是否违规。以这套数据对 qwen2.5-3b（30亿参数）进行微调，在对话策略、agent 输出校验和医疗合规等任务上超越 OpenAI 的 oss-safeguard-20b（200亿参数）及直接使用的 GPT-4.1。框架将任务拆分为多维度，在边界地带生成容易判错的样本，并通过“非对称辩论”环节来确保标签准确性。评测代码和数据集已在 GitHub 与 Hugging Face 开源。

CoinNetwork

2026-04-29 10:59:47

Генерация тезисов в процессе

币界网消息，Plurai提出的barred框架通过给定任务描述和少量无标注样本，自动生成合成训练数据，训练出定制的内容护栏（guardrail），用于审核AI输出是否违规。
Используя этот набор данных для дообучения, qwen2.5-3b (30 миллиардов параметров) полностью превосходит OpenAI’s oss-safeguard-20b (200 миллиардов параметров) в задачах диалоговой стратегии, проверки вывода агента и медицинской соответствия, а также превосходит напрямую используемый GPT-4.1.
Этот каркас разбивает задачу на несколько измерений, специально генерируя в пограничных областях образцы, легко допускающие ошибку.
После генерации требуется этап «асимметричных дебатов», чтобы обеспечить точность меток образцов.
Код оценки и датасеты уже опубликованы с открытым исходным кодом на GitHub и Hugging Face.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
WCTCTradingKingPK
362.77K Популярность
#
CryptoMarketsDipSlightly
267.54K Популярность
#
IsraelStrikesIranBTCPlunges
35.94K Популярность
#
#DailyPolymarketHotspot
698.82K Популярность
#
StrategyAccumulates2xMiningRate
139.47M Популярность

Закрепить

Карта сайта

Plurai：3 миллиарда параметров малых моделей превосходят 20 миллиардов специализированных моделей с защитными барьерами

Популярные темы

WCTCTradingKingPK

CryptoMarketsDipSlightly

IsraelStrikesIranBTCPlunges

#DailyPolymarketHotspot

StrategyAccumulates2xMiningRate

Закрепить