DeepSeek V4 menggandakan token dibanding V3, menghadapi ketidakstabilan dari outlier MoE dan lonjakan yang dipicu routing; dua solusi—Routing Antisipatif (loss-triggered, ~20% tambahan komputasi) dan SwiGLU Clamping (batas aktivasi)—mengatasi masalah meskipun prinsip-prinsipnya tetap tidak jelas. Zhang menyebutnya sebagai plester sementara yang transparan.Abstrak: Laporan ini merangkum tantangan pelatihan DeepSeek V4 dan strategi mitigasinya. V4-Flash dan V4-Pro dilatih sebelumnya dengan 32T dan 33T token, sekitar dua kali lipat dari V3 yang sekitar 15T, dan mengalami ketidakstabilan signifikan dari outlier dalam proses routing MoE, dengan lonjakan loss dan rollback yang tidak efektif. Routing Antisipatif memisahkan pembaruan indeks routing dari pelatihan backbone dan aktif secara otomatis saat lonjakan loss, dengan sekitar 20% tambahan komputasi; SwiGLU Clamping membatasi aktivasi ke rentang tetap untuk menekan outlier. Kedua metode ini efektif, meskipun prinsip dasarnya tetap belum sepenuhnya dipahami. Susan Zhang dari Google DeepMind menyebut perubahan ini sebagai plester pragmatis sambil memuji transparansi proyek.

AirdropBlackHole

2026-04-27 02:14:01

Pembuatan abstrak sedang berlangsung

Menurut pemantauan oleh Dongcha Beating, laporan teknis untuk DeepSeek V4 mengungkapkan bahwa V4-Flash dan V4-Pro dilatih sebelumnya pada 32T dan 33T token masing-masing, menggandakan sekitar 15T token yang digunakan dalam V3. Laporan tersebut mengakui bahwa proses pelatihan mengalami ‘tantangan ketidakstabilan yang signifikan,’ dengan kejadian berulang dari lonjakan kehilangan (lonjakan mendadak dalam kehilangan pelatihan) yang disebabkan oleh outlier di lapisan MoE, dan mekanisme routing itu sendiri memperburuk outlier ini, membuat rollback sederhana tidak efektif. DeepSeek telah mengidentifikasi dua solusi yang telah diterapkan dalam pelatihan nyata: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan utama dan secara otomatis dipicu hanya ketika lonjakan kehilangan terdeteksi, menimbulkan overhead tambahan sekitar 20%; dan SwiGLU Clamping, yang membatasi nilai aktivasi ke rentang tetap untuk secara langsung menekan outlier. Laporan menyatakan bahwa kedua metode tersebut efektif tetapi mengakui bahwa ‘prinsip dasar belum sepenuhnya dipahami.’ Peneliti Google DeepMind Susan Zhang, yang sebelumnya bekerja di Meta AI dan OpenAI, berkomentar bahwa ketidakstabilan yang disebabkan oleh penggandaan data pelatihan ‘menjelaskan penundaan tersebut,’ menggambarkan kedua solusi ini sebagai ‘perbaikan sementara,’ sambil juga menegaskan transparansi teknis dari DeepSeek.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

Hadiah
suka
Komentar
Posting ulang
Bagikan

Komentar

Tambahkan komentar

Tidak ada komentar

Topik Trending
Lihat Lebih Banyak
#
WCTCTradingKingPK
289.12K Popularitas
#
比特币Breaks79K
11.69M Popularitas
#
IsraelStrikesIranBTCPlunges
34.51K Popularitas
#
CryptoMarketsRiseBroadly
95.07K Popularitas
#
WHCADinnerShootingIncident
18.01K Popularitas

Sematkan

peta situs

Peneliti DeepMind Berspekulasi tentang Penundaan DeepSeek V4: Data Pelatihan Digandakan Menjadi 33T Menyebabkan Ketidakstabilan Parah

Topik Trending

WCTCTradingKingPK

比特币Breaks79K

IsraelStrikesIranBTCPlunges

CryptoMarketsRiseBroadly

WHCADinnerShootingIncident

Sematkan