Kesibukan server DeepSeek membuat semua orang gila, apa sebenarnya yang terjadi di balik layar?

Sumber gambar: Dibuat oleh AI Tanpa Batas

DeepSeek sering membalas dengan pesan "server sibuk, silakan coba lagi nanti," yang membuat pengguna di berbagai daerah menjadi gila.

Sebelumnya tidak begitu dikenal oleh masyarakat umum, DeepSeek, karena peluncuran model bahasa V3 yang menandingi GPT 4o pada 26 Desember 2024, mendadak terkenal. Pada 20 Januari, DeepSeek juga merilis model bahasa R1 yang menandingi OpenAI o1, kemudian karena kualitas jawaban yang dihasilkan oleh mode "berpikir mendalam" yang tinggi, serta sinyal positif inovatif yang mengungkapkan kemungkinan penurunan tajam biaya awal pelatihan model, membuat perusahaan dan aplikasi ini benar-benar populer. Setelah itu, DeepSeek R1 terus mengalami kemacetan, fungsi pencarian online-nya terkadang lumpuh, sedangkan mode berpikir mendalam sering menunjukkan pesan "server sibuk" dengan frekuensi tinggi, fenomena seperti ini membuat banyak pengguna merasa kesulitan.

Beberapa hari yang lalu, DeepSeek mulai mengalami gangguan server, pada tanggal 27 Januari siang, situs resmi DeepSeek beberapa kali menunjukkan "halaman web/api deepseek tidak tersedia", hari itu, DeepSeek menjadi aplikasi dengan jumlah unduhan tertinggi selama akhir pekan di iPhone, melampaui ChatGPT di daftar unduhan wilayah Amerika.

Pada 5 Februari, DeepSeek diluncurkan di platform seluler selama 26 hari, dengan jumlah pengguna aktif harian melebihi 40 juta, sementara ChatGPT memiliki jumlah pengguna aktif harian sebanyak 54,95 juta, atau sekitar 74,3% dari jumlah pengguna DeepSeek. Hampir seiring dengan pertumbuhan pesat DeepSeek, keluhan tentang kesibukan server mulai merajalela. Pengguna di seluruh dunia mulai mengalami ketidaknyamanan karena situs tersebut sering mengalami downtime saat mencoba mengaksesnya. Berbagai situs pengganti mulai bermunculan, termasuk situs pengganti DeepSeek, serta platform layanan awan besar, produsen chip, dan perusahaan infrastruktur lainnya. Terdapat pula panduan pemasangan pribadi yang tersebar di mana-mana. Namun, kegelisahan pengguna tidak kunjung mereda: hampir semua produsen penting di seluruh dunia menyatakan dukungannya untuk pemasangan DeepSeek, namun pengguna di berbagai tempat masih terus mengeluhkan ketidakstabilan layanan tersebut.

Apa sebenarnya yang terjadi di balik ini?

Mereka yang terbiasa dengan ChatGPT tidak tahan dengan DeepSeek yang tidak dapat dibuka

Ketidakpuasan orang terhadap 'DeepSeek server sibuk' berasal dari aplikasi AI teratas sebelumnya, yang didominasi oleh ChatGPT, jarang mengalami kekakuan.

Sejak diluncurkan oleh layanan OpenAI, meskipun ChatGPT mengalami beberapa insiden kegagalan P0 (level kegagalan paling parah), secara keseluruhan, itu cukup dapat diandalkan, telah menemukan keseimbangan antara inovasi dan stabilitas, dan secara bertahap menjadi bagian kunci layanan awan tradisional yang serupa.

Jumlah downtime ChatGPT tidak terlalu banyak

Proses penalaran ChatGPT relatif stabil, termasuk dua langkah, yaitu encoding dan decoding. Pada tahap encoding, teks input dikonversi menjadi vektor yang berisi informasi semantik teks input. Pada tahap decoding, ChatGPT menggunakan teks yang dihasilkan sebelumnya sebagai konteks, menggunakan model Transformer untuk menghasilkan kata atau frasa berikutnya, hingga menciptakan kalimat lengkap yang sesuai dengan kebutuhan. Model besar itu sendiri termasuk dalam arsitektur Decoder, dan tahap decoding adalah proses output token (unit terkecil yang diolah model besar) satu per satu saat model ChatGPT diajukan pertanyaan, sehingga memulai proses penalaran.

Sebagai contoh, jika Anda bertanya kepada ChatGPT, 'Bagaimana perasaanmu hari ini,' ChatGPT akan mengkodekan kalimat ini, menghasilkan representasi perhatian setiap lapisan, berdasarkan representasi perhatian dari semua token sebelumnya, dan memprediksi token output pertama 'saya,' kemudian melakukan dekode, menyatukan 'saya' ke 'Bagaimana perasaanmu hari ini?,' dan kemudian mendapatkan 'Bagaimana perasaanmu hari ini? saya,' mendapatkan representasi perhatian baru, dan kemudian memprediksi token berikutnya: 'yang,' kemudian berulang seperti langkah pertama dan kedua, akhirnya mendapatkan 'Bagaimana perasaanmu hari ini? Perasaanku baik.'

Alat yang mengatur wadah Kubernetes adalah "komandan di balik layar" ChatGPT, yang bertanggung jawab atas penjadwalan dan alokasi sumber daya server. Ketika jumlah pengguna yang masuk melebihi kapasitas kendali bidang Kubernetes, ini dapat menyebabkan sistem ChatGPT lumpuh total.

Jumlah total kejadian ChatGPT mengalami kelumpuhan tidak terlalu banyak, tetapi di balik ini adalah sumber daya yang kuat yang menjadi penopangnya, menjaga stabilitas operasi di baliknya adalah kekuatan komputasi yang kuat, yang sering diabaikan oleh orang-orang.

Secara umum, karena skala data yang diperlukan untuk pemrosesan inferensi seringkali lebih kecil, maka kebutuhan daya komputasi tidak sebesar saat pelatihan. Para ahli industri memperkirakan bahwa dalam proses inferensi model besar normal, penggunaan memori utama adalah untuk parameter bobot model, yang sekitar 80% atau lebih. Situasinya sebenarnya adalah, dalam beberapa model bawaan ChatGPT, ukuran model bawaan di dalamnya lebih kecil daripada 671B DeepSeek-R1, ditambah dengan kekuatan komputasi GPU yang jauh lebih besar dari DeepSeek, secara alami menunjukkan kinerja yang lebih stabil daripada DS-R1.

DeepSeek-V3 dan R1 keduanya adalah model 671B, proses memulai model tersebut adalah proses penalaran, cadangan daya komputasi saat penalaran perlu sebanding dengan jumlah pengguna, misalnya jika ada 100 juta pengguna maka perlu dilengkapi dengan 100 juta kartu grafis, tidak hanya besar, tetapi juga terpisah dari cadangan daya komputasi saat pelatihan dan tidak terkait. Dari berbagai informasi, jelas bahwa kartu grafis dan cadangan daya komputasi DS jelas kurang, sehingga sering terjadi lag.

Perbandingan ini membuat pengguna yang terbiasa dengan pengalaman ChatGPT yang mulus merasa tidak nyaman, terutama saat minat mereka terhadap R1 semakin meningkat saat ini.

2、Kartu, kartu, masih kartu

Selain itu, perbandingan yang teliti menunjukkan bahwa situasi yang dihadapi oleh OpenAI dan DeepSeek sangatlah berbeda.

Yang pertama didukung oleh Microsoft sebagai platform eksklusif OpenAI, dan layanan cloud Microsoft Azure membawa ChatGPT, generator gambar Dalle-E 2, alat pengkodean otomatis GitHub Copilot. Kombinasi ini telah menjadi paradigma klasik dari cloud + kecerdasan buatan, dan dengan cepat menjadi standar industri. Meskipun yang kedua adalah startup, dalam sebagian besar kasus bergantung pada pusat data internal, mirip dengan Google, dan tidak bergantung pada penyedia layanan komputasi awan pihak ketiga. Setelah menyelidiki informasi publik, SiliconStar menemukan bahwa DeepSeek tidak memiliki kerjasama dengan produsen chip awan pada setiap tingkat (meskipun selama liburan Tahun Baru Cina, produsen awan secara massal mengumumkan bahwa model DeepSeek mereka berjalan di atasnya, namun mereka tidak melakukan kerjasama nyata apa pun).

Selain itu, DeepSeek mengalami pertumbuhan pengguna yang belum pernah terjadi sebelumnya, yang berarti waktu persiapan untuk kasus kegembiraan yang sesuai lebih sedikit daripada ChatGPT.

Kinerja baik DeepSeek berasal dari optimasi keseluruhan yang dilakukannya di tingkat perangkat keras dan sistem. Perusahaan induk DeepSeek, Fantasia Quantitative, telah menghabiskan 2 miliar untuk membangun klaster superkomputer Firefly No. 1 sejak 2019, dan diam-diam menyimpan ribuan kartu grafis A100 pada 22, untuk pelatihan paralel yang lebih efisien, DeepSeek telah mengembangkan kerangka pelatihan HAI LLM sendiri. Industri percaya bahwa klaster Firefly mungkin menggunakan ribuan hingga puluhan ribu GPU kinerja tinggi (seperti NVIDIA A100/H100 atau chip buatan dalam negeri), untuk menyediakan kemampuan komputasi paralel yang kuat. Saat ini, klaster Firefly mendukung pelatihan model seperti DeepSeek-R1, DeepSeek-MoE, dan model-model ini menunjukkan kinerja yang mendekati tingkat GPT-4 dalam tugas-tugas matematika, kode, dan lainnya.

Cluster Firefly mewakili eksplorasi DeepSeek terhadap arsitektur dan metode baru, dan juga membuat dunia luar percaya bahwa melalui teknologi inovatif seperti itu, DS dapat mengurangi biaya pelatihan, dan dapat melatih R1 dengan kinerja model AI teratas di sebagian kecil dari daya komputasi model Barat yang paling canggih. Menurut perhitungan SemiAnalysis, DeepSeek sebenarnya memiliki cadangan daya komputasi yang sangat besar: DeepSeek memiliki total 60.000 kartu GPU NVIDIA, termasuk 10.000 A100, 10.000 H100, 10.000 "edisi khusus" H800 dan 30.000 "edisi khusus" H20.

Ini tampaknya berarti bahwa jumlah kartu R1 cukup besar. Namun, sebenarnya, sebagai model penalaran R1, yang menjadi acuan adalah O3 dari OpenAI, model penalaran seperti ini memerlukan lebih banyak daya komputasi untuk tahap respons, tetapi DS menghemat daya komputasi dari sisi biaya pelatihan, sementara daya komputasi yang tiba-tiba meningkat dari sisi biaya penalaran, mana yang lebih tinggi, mana yang lebih rendah, saat ini tidak jelas.

Perlu dicatat bahwa DeepSeek-V3 dan DeepSeek-R1 keduanya adalah model bahasa besar, tetapi cara kerjanya berbeda. DeepSeek-V3 adalah model instruksi, mirip dengan ChatGPT, menerima kata kunci untuk menghasilkan teks yang sesuai untuk dibalas. Namun DeepSeek-R1 adalah model penalaran, ketika pengguna bertanya kepada R1, itu akan melakukan proses penalaran yang besar terlebih dahulu, kemudian menghasilkan jawaban akhir. Token yang dihasilkan oleh R1 pertama-tama akan muncul dalam proses berpikir yang besar, model akan menjelaskan pertanyaan, memecah pertanyaan, semua proses penalaran ini akan dihasilkan dengan cepat dalam bentuk token sebelum menghasilkan jawaban.

Menurut Wakil Presiden Youtoo Capital, Wen Tingcan, cadangan daya komputasi besar DeepSeek yang disebutkan di atas mengacu pada tahap pelatihan. Tim daya komputasi pada tahap pelatihan dapat direncanakan dan diharapkan, tidak mudah kekurangan daya komputasi, tetapi daya komputasi inferensi memiliki tingkat ketidakpastian yang lebih besar karena terutama bergantung pada skala dan tingkat penggunaan pengguna, relatif lebih fleksibel. "Daya komputasi inferensi akan tumbuh sesuai dengan pola tertentu, tetapi dengan DeepSeek menjadi produk level fenomenal, dalam waktu singkat, skala dan tingkat penggunaan pengguna meledak, ini menyebabkan permintaan daya komputasi inferensi meledak, sehingga terjadi gangguan."

Segera setelah desainer produk model yang aktif, pengembang independen mengakui bahwa jumlah kartu DeepSeek yang terkendala adalah alasan utama, karena menurutnya DS sebagai aplikasi seluler dengan jumlah unduhan tertinggi di 140 pasar global saat ini tidak dapat bertahan dengan kartu yang ada, bahkan dengan kartu baru pun tidak mungkin, karena "membuat kartu baru membutuhkan waktu".

Biaya menjalankan chip seperti NVIDIA A100, H100 memiliki harga pasar yang wajar selama satu jam. Dari biaya inferensi token yang dihasilkan oleh DeepSeek, mereka lebih dari 90% lebih murah daripada model sejenis OpenAI o1, ini sejalan dengan perhitungan umum. Oleh karena itu, struktur model MOE bukanlah masalah utama, tetapi jumlah GPU yang dimiliki oleh DS menentukan jumlah token yang dapat mereka hasilkan setiap menitnya. Meskipun mereka dapat menggunakan lebih banyak GPU untuk melayani pengguna inferensi, bukan untuk penelitian pra-pelatihan, tetapi batas maksimumnya tetap ada.

Juga ada profesional di industri yang menyebut kepada Silicon Star bahwa sengketa DeepSeek pada dasarnya karena cloud privat tidak ditangani dengan baik.

Serangan hacker adalah faktor pendorong lain dari R1 lag. Pada 30 Januari, media mendapat informasi dari perusahaan keamanan jaringan Qi AnXin bahwa intensitas serangan terhadap layanan online DeepSeek tiba-tiba meningkat, dengan perintah serangan meningkat ratusan kali lipat dibandingkan dengan 28 Januari. Laboratorium Xlab Qi AnXin mengamati setidaknya ada 2 jaringan zombie yang terlibat dalam serangan.

Namun, kekakuan layanan R1 sendiri memiliki solusi yang tampaknya cukup jelas, yaitu layanan pihak ketiga. Ini juga pemandangan paling ramai yang kami saksikan selama musim perayaan Tahun Baru—berbagai produsen secara aktif menyediakan layanan, memenuhi kebutuhan masyarakat terhadap DeepSeek.

Pada tanggal 31 Januari, NVIDIA mengumumkan bahwa NVIDIA NIM sekarang dapat digunakan dengan DeepSeek-R1, yang sebelumnya membuat nilai pasar NVIDIA turun hampir 600 miliar dolar dalam semalam. Pada hari yang sama, pengguna AWS Amazon Cloud dapat melakukan implementasi model dasar terbaru DeepSeek-R1 di platform kecerdasan buatan mereka, Amazon Bedrock dan Amazon SageMaker AI. Selanjutnya, aplikasi AI terkemuka termasuk Perplexity dan Cursor juga secara masif mengadopsi DeepSeek. Microsoft bahkan mengambil langkah di depan Amazon dan NVIDIA dengan pertama kali men-deploy DeepSeek-R1 di layanan cloud Azure dan Github mereka.

Mulai dari Tahun Baru Imlek ke-4 pada 1 Februari, Huawei Cloud, Alibaba Cloud, mesin gunung berapi yang dimiliki oleh ByteDance, dan Tencent Cloud juga ikut serta, biasanya mereka menyediakan layanan penyebaran model DeepSeek penuh dan berukuran penuh. Setelah itu, ada produsen chip kecerdasan buatan seperti BiRun Technology, Hanbo Semiconductor, Ascend, Muxi, dan lainnya, yang mengklaim telah mengadaptasi versi asli DeepSeek atau versi distilasi yang lebih kecil. Di sisi perangkat lunak, perusahaan seperti Yonyou, Kingdee, dan lainnya telah mengintegrasikan model DeepSeek dalam beberapa produk untuk meningkatkan kekuatan produk, dan terakhir adalah produsen terminal seperti Lenovo, Huawei, dan beberapa produk di bawah merek Honor yang mengintegrasikan model DeepSeek untuk digunakan sebagai asisten pribadi di tepi dan kabin pintar mobil.

Hingga saat ini, DeepSeek telah menarik lingkaran teman yang luas berkat nilai-nilai yang dimilikinya, meliputi penyedia cloud, operator, perusahaan sekuritas, dan platform superkomputer nasional dari dalam dan luar negeri. Karena DeepSeek-R1 adalah model yang sepenuhnya open-source, penyedia layanan yang terhubung semua menjadi pihak yang mendapat manfaat dari model DS. Di satu sisi, ini secara signifikan meningkatkan popularitas DS, namun juga menyebabkan munculnya lag yang lebih sering, penyedia layanan dan DS sendiri semakin terjebak oleh pengguna yang datang secara masif, bahkan tidak menemukan kunci utama untuk mengatasi masalah penggunaan yang stabil.

Mengingat model DeepSeek V3 dan R1 keduanya memiliki 6710 miliar parameter, cocok untuk dijalankan di cloud, penyedia cloud sendiri memiliki daya komputasi dan kemampuan inferensi yang lebih memadai, mereka meluncurkan layanan implementasi terkait DeepSeek untuk mengurangi hambatan penggunaan perusahaan, setelah menerapkan model DeepSeek mereka, mereka menyediakan API model DS ke publik, dibandingkan dengan API yang disediakan oleh DS sendiri, ini dianggap dapat memberikan pengalaman pengguna yang lebih baik daripada yang ditawarkan oleh DS secara resmi.

Namun dalam kenyataannya, masalah pengalaman operasional model DeepSeek-R1 itu sendiri tidak dipecahkan di berbagai layanan, di mana pihak luar menganggap bahwa penyedia layanan tidak kekurangan kartu, tetapi pada kenyataannya, jumlah kartu yang dialokasikan untuk melakukan penalaran oleh R1 juga tidak terlalu banyak.

"R1 tetap tinggi, penyedia layanan perlu mempertimbangkan model lain yang diakses, kartu yang dapat diberikan kepada R1 sangat terbatas, R1 memiliki tingkat popularitas yang tinggi, jika ada yang memasuki R1, dan menawarkan harga yang relatif rendah, itu akan hancur." Desainer produk model, pengembang independen Gui Cang menjelaskan alasannya kepada alien silikon.

Optimisasi implementasi model adalah bidang yang luas yang melibatkan banyak tahapan, mulai dari pelatihan hingga implementasi perangkat keras yang sebenarnya, melibatkan pekerjaan di berbagai tingkat, tetapi untuk insiden lag DeepSeek, alasannya mungkin lebih sederhana, seperti model yang terlalu besar dan persiapan optimisasi sebelum peluncuran yang tidak memadai.

Sebelum model besar yang populer diluncurkan, akan menghadapi berbagai tantangan teknis, rekayasa, bisnis, dan lainnya, seperti konsistensi data pelatihan dengan data lingkungan produksi, penundaan data dan dampak kekinianitas pada efek inferensi model, efisiensi inferensi online dan penggunaan sumber daya yang terlalu tinggi, kurangnya kemampuan generalisasi model, serta aspek rekayasa seperti kestabilan layanan, integrasi API dan sistem, dan sebagainya.

Banyak model besar yang sedang populer sangat memperhatikan optimalisasi inferensi sebelum diluncurkan, hal ini karena masalah waktu komputasi dan memori, yang pertama mengacu pada keterlambatan inferensi yang terlalu lama, menyebabkan pengalaman pengguna yang buruk, bahkan tidak dapat memenuhi kebutuhan penundaan, seperti lag, dan yang kedua mengacu pada jumlah parameter model yang besar, menghabiskan memori GPU, bahkan tidak muat di satu kartu GPU, juga dapat menyebabkan lag.

Wen Tingcan menjelaskan kepada makhluk Silikon tentang alasan tersebut, ia menyebut tantangan yang dihadapi penyedia layanan dalam menyediakan layanan R1, yaitu struktur model DS yang khusus dan model yang terlalu besar + MOE (sejenis struktur pencampuran ahli, cara komputasi yang efisien). "Optimisasi (oleh penyedia layanan) memerlukan waktu, tetapi ada jendela waktu dalam pasar yang sedang panas, jadi semua harus diluncurkan terlebih dahulu dan dioptimalkan kemudian, bukan sebaliknya."

Agar R1 berjalan stabil, intinya sekarang terletak pada kemampuan untuk mencadangkan dan mengoptimalkan di sisi inferensi. Yang perlu dilakukan DeepSeek adalah menemukan cara untuk mengurangi biaya inferensi, output kartu, dan jumlah output token sekaligus.

Sementara itu, kekakuan juga menunjukkan bahwa kekuatan komputasi DS itu sendiri kemungkinan besar tidak sebesar yang dijelaskan oleh SemiAnalysis, perusahaan dana segi empat harus menggunakan kartu, tim pelatihan DeepSeek juga harus menggunakan kartu, dan kartu yang bisa diberikan kepada pengguna belum banyak. Dilihat dari perkembangan saat ini, dalam jangka pendek DeepSeek mungkin tidak memiliki dorongan untuk menghabiskan uang untuk menyewa layanan, dan kemudian memberikan pengalaman yang lebih baik kepada pengguna secara gratis, mereka lebih mungkin menunggu hingga model bisnis C pertama tersusun dengan jelas sebelum mempertimbangkan topik sewa layanan, ini juga berarti bahwa kekakuan akan berlanjut untuk waktu yang cukup lama.

"Mereka mungkin perlu dua langkah: 1) menerapkan mekanisme pembayaran, membatasi penggunaan model pengguna gratis; 2) bekerja sama dengan penyedia layanan cloud, menggunakan sumber daya GPU orang lain." Solusi sementara yang diberikan oleh pengembang Chen Yunfei memiliki konsensus yang signifikan di industri.

Namun pada saat ini, DeepSeek tidak terlalu terburu-buru dengan masalah 'server sibuk' mereka. Sebagai perusahaan yang mengejar AGI, DeepSeek tampaknya tidak terlalu fokus pada lonjakan lalu lintas pengguna yang datang. Kemungkinan pengguna harus terbiasa dengan tampilan 'server sibuk' untuk waktu yang cukup lama di masa depan.

DEEPSEEK-12.33%
GPT-3.98%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 1
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)