币界网消息,Plurai提出的barred框架通过给定任务描述和少量无标注样本,自动生成合成训练数据,训练出定制的内容护栏(guardrail),用于审核AI输出是否违规。 使用这套数据微调的qwen2.5-3b(30亿参数)在对话策略、agent输出校验和医疗合规等任务上全面超过OpenAI的oss-safeguard-20b(200亿参数),并且也超过直接使用的GPT-4.1。 该框架将任务拆分为多个维度,专门在边界地带生成容易判错的样本。 生成后需经过「非对称辩论」环节,确保样本标签的准确性。 评估代码和数据集已在GitHub和Hugging Face开源。
Plurai:300 millionパラメータの小型モデルが200億の専用ガードレールモデルを超える
币界网消息,Plurai提出的barred框架通过给定任务描述和少量无标注样本,自动生成合成训练数据,训练出定制的内容护栏(guardrail),用于审核AI输出是否违规。
使用这套数据微调的qwen2.5-3b(30亿参数)在对话策略、agent输出校验和医疗合规等任务上全面超过OpenAI的oss-safeguard-20b(200亿参数),并且也超过直接使用的GPT-4.1。
该框架将任务拆分为多个维度,专门在边界地带生成容易判错的样本。
生成后需经过「非对称辩论」环节,确保样本标签的准确性。
评估代码和数据集已在GitHub和Hugging Face开源。