Peneliti DeepMind berspekulasi alasan penundaan DeepSeek V4: data pelatihan berlipat ganda menjadi 33T menyebabkan ketidakstabilan parah.

robot
Pembuatan abstrak sedang berlangsung
ME News berita, 24 April (UTC+8), menurut pemantauan Beating, laporan teknis DeepSeek V4 mengungkapkan bahwa V4-Flash dan V4-Pro masing-masing dilatih pada 32T dan 33T token, dua kali lipat dari sekitar 15T token V3. Laporan tersebut mengakui bahwa selama proses pelatihan "menghadapi tantangan ketidakstabilan yang signifikan", lonjakan loss (loss spike) muncul berulang kali, yang disebabkan oleh outlier di lapisan MoE, dan mekanisme routing itu sendiri memperburuk outlier ini, sehingga rollback sederhana tidak dapat menyelesaikan masalah. DeepSeek menemukan dua solusi dan telah menerapkannya dalam pelatihan aktual: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan backbone, hanya dipicu secara otomatis saat lonjakan loss terdeteksi, dengan biaya tambahan sekitar 20%; SwiGLU Clamping, yang menjepit nilai aktivasi ke rentang tetap untuk menekan outlier secara langsung. Laporan menyatakan keduanya efektif, tetapi mengakui bahwa "prinsip dasarnya belum sepenuhnya dipahami". Peneliti Google DeepMind Susan Zhang (sebelumnya bekerja di Meta AI dan OpenAI) berkomentar bahwa ketidakstabilan yang dipicu oleh penggandaan data pelatihan "menjelaskan penundaan", menyebut kedua solusi ini sebagai "plester", sambil mengakui transparansi teknis DeepSeek. (Sumber: BlockBeats)
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Disematkan