Peneliti DeepMind Berspekulasi tentang Penundaan DeepSeek V4: Data Pelatihan Digandakan Menjadi 33T Menyebabkan Ketidakstabilan Parah

robot
Pembuatan abstrak sedang berlangsung

Menurut pemantauan oleh Dongcha Beating, laporan teknis untuk DeepSeek V4 mengungkapkan bahwa V4-Flash dan V4-Pro dilatih sebelumnya pada 32T dan 33T token masing-masing, menggandakan sekitar 15T token yang digunakan dalam V3. Laporan tersebut mengakui bahwa proses pelatihan mengalami ‘tantangan ketidakstabilan yang signifikan,’ dengan kejadian berulang dari lonjakan kehilangan (lonjakan mendadak dalam kehilangan pelatihan) yang disebabkan oleh outlier di lapisan MoE, dan mekanisme routing itu sendiri memperburuk outlier ini, membuat rollback sederhana tidak efektif. DeepSeek telah mengidentifikasi dua solusi yang telah diterapkan dalam pelatihan nyata: Anticipatory Routing, yang memisahkan perhitungan indeks routing dari pembaruan jaringan utama dan secara otomatis dipicu hanya ketika lonjakan kehilangan terdeteksi, menimbulkan overhead tambahan sekitar 20%; dan SwiGLU Clamping, yang membatasi nilai aktivasi ke rentang tetap untuk secara langsung menekan outlier. Laporan menyatakan bahwa kedua metode tersebut efektif tetapi mengakui bahwa ‘prinsip dasar belum sepenuhnya dipahami.’ Peneliti Google DeepMind Susan Zhang, yang sebelumnya bekerja di Meta AI dan OpenAI, berkomentar bahwa ketidakstabilan yang disebabkan oleh penggandaan data pelatihan ‘menjelaskan penundaan tersebut,’ menggambarkan kedua solusi ini sebagai ‘perbaikan sementara,’ sambil juga menegaskan transparansi teknis dari DeepSeek.

Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • Komentar
  • Posting ulang
  • Bagikan
Komentar
Tambahkan komentar
Tambahkan komentar
Tidak ada komentar
  • Sematkan