暗号資産を購入

支払い方法

USD

購入 & 売却

Visa、Mastercard、SEPAなどに対応

柔軟な取引、手数料ゼロ

暗号資産を使って世界中で支払いができます

基礎

暗号を自由に取引

証拠金取引

レバレッジを使って利益を拡大しましょう

即時スワップと自動投資

手数料ゼロ＆スリッページなしで、どんなサイズでも取引可能

レバレッジポジションを簡単に利用

上場前取引

上場前の新規トークンを取引

上級

Gateウォレットでオンチェーン取引を行う

新しいオンチェーントークンにスマートアクセス

自動取引によるスマート戦略

専門家の取引戦略をフォロー

プラットフォーム間で共有される 1 つの証拠金残高

数百の無期限先物にアクセス

世界の伝統資産を一つのプラットフォームで

オプション取引

ヨーロッパ式のバニラオプションで取引できます

資本効率の最大化

先物取引の紹介

先物取引の準備をする

先物イベント

イベントに参加して報酬を獲得

仮想資金を使ってリスクのない取引を体験しよう。

米国株CFDデリバティブ

実際の米国株とETFにアクセス

優良な香港上場株式の取引

韓国の現物株と人気資産を取引

高レバレッジ・24時間365日取引

トークン化株式

実際の株式資産に裏付けられています

世界中の株式IPOにフルアクセス

米国債RWA利回り向けにGUSDをミント

人気株式を取引して、豊富なエアドロップをアンロックしましょう

ローンチパッド

キャンディーを集めてAirDropを獲得

クイックステーキング潜在的な新しいトークンを獲得しよう

GTを保有して、大量のAirDropを無料で入手

世界中の株式IPOにフルアクセス

Alphaポイント

オンチェーン資産を取引してAirdropを獲得

先物ポイント

先物ポイントを獲得し、Airdrop報酬を受け取りましょう。

投資

遊休トークンで利息を稼ぐ

定期的に自動投資

デュアル投資

市場のボラティリティから利益を得る

ソフトステーキング

フレキシブルステーキングで報酬を獲得します

暗号資産ローン

1つの暗号通貨を担保に別の暗号通貨を借りる

レンディングセンター

ワンストップレンディングハブ

VIPウェルスハブ

プレミアム資産成長プラン

金融の未来を自らの手に

クオンツ資金

トップレベルのクオンツ戦略

ステーキング

暗号をステーキングしてPoS製品で稼ぐ

スマートレバレッジ

清算なしレバレッジ

ロックなし、いつでも取引・出金

暗号資産の価値を発見しよう

暗号資産相場分析ライブ

暗号資産トレーダーと意見交換

暗号資産業界の最新情報

もっと

プロモーション

イベントセンター

アクティビティに参加して報酬を獲得

友達を招待して紹介報酬を獲得

アフィリエイトプログラム

限定コミッション報酬を獲得

影響力を高めてAirdropを獲得

アナウンスメント

プラットフォームのリアルタイム更新

暗号資産の洞察を得よう

VIPサービス

大幅な手数料割引

ワンストップ資産管理ソリューション

機関向けサービス

エンタープライズ向け資産ソリューション

開発者（API）

Gateアプリケーションエコシステムに接続する

OTC銀行送金

法定通貨の入金と出金

ブローカープログラム

豊富なAPIリベートメカニズム

AI

あなたの対話型AI万能パートナー

ソーシャルアプリで Gate AI をそのまま利用

Gateブルーロブスター、すぐに使える

Gate for AI Agent

AIインフラストラクチャ、Gate MCP、Skills、CLI

Gate Skills Hub

1万以上のスキル

オフィス業務から取引まで、AIをもっと活用できるワンストップスキルライブラリ

その他

ヘルプセンター

FAQ とヘルプガイドを見つける

暗号投資について学ぶ

パートナー

チャンピオンと共に成長

準備金証明

Gate は100%準備金証明を約束します

あなたの資産を安全に保護します

V4後訓練の世代交代：OPDが混合RLを代替、十数個の専門家モデルを一つに蒸留

2026-07-02 06:56:03

概要作成中

ME News メッセージ、4月24日（UTC+8）、動察 Beatingのモニタリングによると、DeepSeek V4の後訓練方法論に重大な変化が生じた：V3.2のmixed RL段階がOn-Policy Distillation（OPD、オンライン戦略蒸留）に完全に置き換えられた。新たなプロセスは2段階に分かれる。第一段階では、数学、コード、Agent、指示追従などの分野において、V3.2パイプラインを基にそれぞれドメイン専門家モデルを訓練し、各専門家はまず微調整を行い、その後GRPOを用いて強化学習を実施する。第二段階では、複数教師OPDを用いて十数名の専門家の能力を単一の統一モデルに蒸留する：学生は自身が生成した軌道上で、各教師に対してreverse KLダイバージェンスによる全語彙logit蒸留を行い、logitsレベルのアライメントを通じて複数の専門家の重みを統一パラメータ空間に統合する。これにより従来のweight mergingやmixed RLでよく見られる能力の競合を回避する。報告書はさらにGenerative Reward Model（GRM、生成型報酬モデル）を提案している：ルールで検証することが難しいタスクに対しては、従来のスカラー報酬モデルを訓練する代わりに、rubric誘導のRLデータを用いてGRMを訓練し、actorネットワークに生成と評価の両能力を同時に担わせ、少数の多様な人手ラベリングだけで複雑なタスクに汎化できるようにする。（出典：BlockBeats）

原文表示

このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております（表明・保証をするものではありません）。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。

報酬
いいね
コメント
リポスト
共有

コメント

コメントを追加

コメントを追加

コメントなし

人気の話題
もっと見る
#
GateCompletesDividendDistribution
536.11K 人気度
#
CirclePlunges17%
4.16M 人気度
#
IsraelStrikesIranBTCPlunges
67.51K 人気度
#
PredictWorldCupShare20000U
162.83K 人気度
#
GateCardPointsSystemLaunched
120.28K 人気度

ピン留め

サイトマップ