広場
最新
注目
ニュース
プロフィール
ポスト
MannyBIP420
2026-05-12 11:58:45
フォロー
私はConstraintGateの最初の公開バージョンをリリースしました。
コアアイデア:
ほとんどのエージェントの失敗は推論の失敗ではありません。
それは権限の失敗です。
モデルは行うべきではなかったことを行いました。
そこで、エージェントの権限ルーターを作成しました:エージェントが正しい種類の作業を行ったかどうかをチェックする評価/スコアリングフレームワークであり、回答が良さそうに聞こえるだけではありません。
それは次のことを分離します:
- ユーザーが許可したこと
- エージェントが実行すべきプリミティブ
- 禁止されたプリミティブ
- 応答が境界を越えたかどうか
v0.8には次のものがあります:
- 人間による裁定付きの行動証拠
- 固定された人間ラベル付けセットに対する決定論的スコアラーのパリティ
- 裁定下での行動の合格率38/39
- フィールドレベルのスコアラーのパリティ195/195
- h019は無効な固定具アーティファクトとして解決
- 新しい自動化されたベンチマークの合格を主張しない
ポイントは「より良いプロンプト」ではありません。
ポイントは、エージェントが許可された範囲内で作業を続けたかどうかを測定することです。
制約の精度は制約の演劇に勝ります。
原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については
免責事項
をご覧ください。
報酬
いいね
コメント
リポスト
共有
コメント
コメントを追加
コメントを追加
コメント
コメントなし
人気の話題
もっと見る
#
GateIPOAccessSpaceX
5.29M 人気度
#
AnthropicReleasesFable5Model
641.33K 人気度
#
IsraelStrikesIranBTCPlunges
56.93K 人気度
#
BlackRockReducesBTCIncreasesETH
288.86M 人気度
#
SpaceXIPOAttractsOver250BillionInOrders
1.39M 人気度
ピン留め
サイトマップ
私はConstraintGateの最初の公開バージョンをリリースしました。
コアアイデア:
ほとんどのエージェントの失敗は推論の失敗ではありません。
それは権限の失敗です。
モデルは行うべきではなかったことを行いました。
そこで、エージェントの権限ルーターを作成しました:エージェントが正しい種類の作業を行ったかどうかをチェックする評価/スコアリングフレームワークであり、回答が良さそうに聞こえるだけではありません。
それは次のことを分離します:
- ユーザーが許可したこと
- エージェントが実行すべきプリミティブ
- 禁止されたプリミティブ
- 応答が境界を越えたかどうか
v0.8には次のものがあります:
- 人間による裁定付きの行動証拠
- 固定された人間ラベル付けセットに対する決定論的スコアラーのパリティ
- 裁定下での行動の合格率38/39
- フィールドレベルのスコアラーのパリティ195/195
- h019は無効な固定具アーティファクトとして解決
- 新しい自動化されたベンチマークの合格を主張しない
ポイントは「より良いプロンプト」ではありません。
ポイントは、エージェントが許可された範囲内で作業を続けたかどうかを測定することです。
制約の精度は制約の演劇に勝ります。