DeepSeek sık sık "sunucu meşgul, lütfen daha sonra tekrar deneyin" yanıtı vererek kullanıcıları çıldırtıyor.
Daha önce genel olarak bilinmeyen DeepSeek, 26 Aralık 2024'te GPT 4o'ye rakip V3 dil modelini piyasaya sürmesiyle ün kazandı. 20 Ocak'ta DeepSeek, OpenAI o1'e rakip R1 dil modelini piyasaya sürdü, ardından 'derin düşünme' moduyla üretilen yüksek kaliteli cevaplar ve model eğitimi öncesi maliyetlerin hızla düşebileceğini ortaya koyan yenilikçi sinyaller nedeniyle şirket ve uygulama tamamen dikkat çekti. Daha sonra, DeepSeek R1 sürekli olarak aşırı yüklendi, çevrimiçi arama özelliği aralıklı olarak felç oldu, derin düşünme modu ise sık sık 'sunucu meşgul' uyarısı verdi, bu tür olaylar birçok kullanıcı için büyük sıkıntıya neden oldu.
Birkaç gün önce, DeepSeek, sunucu kesintileri yaşamaya başladı, 27 Ocak öğlen saatlerinde, DeepSeek resmi web sitesi birkaç kez "deepseek web/api kullanılamıyor" mesajını gösterdi, aynı gün, DeepSeek, hafta sonu boyunca en yüksek iPhone indirme miktarına sahip uygulama haline geldi ve ABD bölgesinde ChatGPT'yi geride bıraktı.
5 Şubat'ta, DeepSeek'in mobil uygulaması 26 gün sonra 40 milyonun üzerinde günlük aktif kullanıcı sayısına ulaştı, ChatGPT'nin mobil uygulamasının günlük aktif kullanıcı sayısı ise 54,95 milyon olarak gerçekleşti; bu da DeepSeek'in ChatGPT'nin %74,3'üne denk gelmektedir. DeepSeek neredeyse dik bir büyüme eğrisine adım attığı anda, sunucularının yoğunluğu hakkındaki eleştiriler ardı arkası kesilmedi. Tüm dünya kullanıcıları, birkaç soru sorduktan sonra çökmelerle karşılaşmaya başladı; DeepSeek'in yedek erişim siteleri gibi çeşitli alternatifler ortaya çıkmaya başladı. Büyük bulut hizmet sağlayıcıları, yonga üreticileri ve altyapı şirketleri de dahil olmak üzere pek çok farklı firma hizmete girdi; kişisel dağıtım kılavuzları her yerde mevcuttu. Ancak insanların sinir bozukluğu hala azalmadı: Neredeyse tüm önemli şirketler, DeepSeek'i desteklemeyi taahhüt etmesine rağmen, kullanıcılar hala hizmetin istikrarsızlığından şikayetçi.
Bu arkasında aslında ne oldu?
1、ChatGPT的人们习惯了,无法忍受打不开的DeepSeek
“DeepSeek sunucularının meşgul olduğuna” yönelik insanların memnuniyetsizliği, önceden ChatGPT'nin başlıca AI uygulamalarından kaynaklanan takılmaların nadir olması nedeniyledir.
OpenAI hizmeti piyasaya sürüldüğünden beri, ChatGPT birkaç P0 seviyesi (en ciddi kaza seviyesi) kesinti yaşasa da genel olarak oldukça güvenilir olduğu ve yenilik ile istikrar arasında bir denge bulduğu ve giderek geleneksel bulut hizmetleri gibi önemli bir bileşen haline geldiği söylenebilir.
ChatGPT'un geniş çaplı çökme sayısı çok fazla değil.
ChatGPT'in çıkarım süreci nispeten istikrarlıdır, kodlama ve çözümleme olmak üzere iki adımdan oluşur, kodlama aşamasında giriş metni vektöre dönüştürülür, vektör giriş metnin anlamsal bilgisini içerir, çözümleme aşamasında ChatGPT önceki üretilen metni bağlam olarak kullanır, Transformer modeli aracılığıyla bir sonraki kelimeyi veya ifadeyi oluşturur, istenilen tam cümleyi oluşturana kadar, büyük model kendisi bir Decoder (çözümleyici) mimarisine aittir, çözümleme aşaması, her seferinde ChatGPT'ye bir soru sorduğunuzda, bir çıkarım süreci başlatılır.
Örneğin, ChatGPT'ye "Bugün nasıl hissediyorsun?" diye sorarsanız, ChatGPT bu cümleyi kodlar, her katman için dikkat temsili oluşturur, önceki tüm belirteçlerin dikkat temsiline göre ilk çıkış belirteci olan "beni" tahmin eder, ardından çözümleme yapar, "beni"'yi "Bugün nasıl hissediyorsun?"'a ekler, ardından "Bugün nasıl hissediyorsun? Ben" alır, yeni bir dikkat temsili elde eder ve ardından bir sonraki belirteci tahmin eder: "nin", ardından ilk adıma, ikinci adıma dönerek, sonunda "Bugün nasıl hissediyorsun? Benim ruh halim çok iyi."'yi elde edersiniz.
Kubernetes, the tool for orchestrating containers, is the "behind-the-scenes commander" of ChatGPT, responsible for scheduling and allocating server resources. When the influx of users exceeds the capacity of Kubernetes' control plane, it leads to a complete system collapse of ChatGPT.
ChatGPT'ın çökme sayısı çok fazla değil, ancak bunun arkasında destek olarak kullandığı güçlü kaynaklar var. Kararlı çalışmayı sürdürmek için güçlü bir hesaplama gücü gereklidir ve bu, insanların göz ardı ettiği bir noktadır.
Genellikle, çıkarım işleminin veri boyutu genellikle küçük olduğundan, gücün talebi eğitim kadar yüksek değildir. Endüstri uzmanları, normal büyük model çıkarım sürecinde, belleğin model parametre ağırlığını büyük ölçüde kapladığını tahmin ediyorlar, yaklaşık olarak %80'in üzerinde. Gerçek şu ki, ChatGPT'nin dahili birçok modeli, varsayılan model boyutları DeepSeek-R1'in 671B'sinden daha küçüktür, ayrıca ChatGPT, DeepSeek'ten çok daha fazla GPU gücüne sahip olduğundan, doğal olarak DS-R1'den daha istikrarlı bir performans sergiler.
DeepSeek-V3 ve R1, 671B bir modeldir, modelin başlatılma süreci akıl yürütme sürecidir, akıl yürütme sırasında güç rezervi kullanıcı sayısı ile uyumlu olmalıdır, örneğin 100 milyon kullanıcı varsa 100 milyon kullanıcı sayısına sahip bir grafik kartı gereklidir, sadece büyük değil, ayrıca eğitim sırasındaki güç rezervinden bağımsızdır ve ilişkili değildir. Çeşitli bilgilere göre, DS'in grafik kartı ve güç rezervi açıkça yetersiz olduğundan sık sık takılıyor.
Bu karşılaştırma, ChatGPT'nin pürüzsüz deneyimine alışmış kullanıcılar için alışılmadık bir durum, özellikle R1'e olan ilgileri giderek artarken.
2、Kart, kart veya kart
Ayrıca, dikkatlice karşılaştırıldığında, OpenAI ve DeepSeek'in karşılaştığı durum çok farklı.
Öncü, Microsoft'un desteğiyle, OpenAI'in özel platformu olarak, Microsoft Azure bulut hizmeti, ChatGPT, Dalle-E 2 görüntü oluşturucu ve GitHub Copilot otomatik kodlama aracını barındırıyor; bu kombinasyon bulut ve yapay zeka için klasik bir model haline geldi ve hızla endüstri standardı haline geldi. İkincisi, çoğunlukla kendi veri merkezlerine dayanan bir girişim olmasına rağmen, Google gibi üçüncü taraf bulut bilişim sağlayıcılarına bağlı değil.
Ayrıca, DeepSeek benzersiz bir kullanıcı büyümesi ile karşılaştı, bu da onun ChatGPT'den daha az hazırlık süresine sahip olduğu anlamına geliyor.
DeepSeek'in iyi performansı, donanım ve sistem düzeyinde yapılan genel optimizasyonundan kaynaklanmaktadır. DeepSeek'in ana şirketi olan Fantasia Quantitative, 2019 yılında Firefly-1 süper bilgi işlem kümesini oluşturmak için 2 milyar dolar harcadı ve 22 yılına kadar binlerce A100 grafik kartını sessizce depoladı. Daha verimli paralel eğitim için DeepSeek, HAI LLM eğitim çerçevesini kendi geliştirdi. Endüstri, Firefly kümesinin güçlü paralel hesaplama yeteneği sunmak için binlerce hatta onbinlerce yüksek performanslı GPU (Nvidia A100/H100 veya yerli yongalar gibi) kullanmış olabileceğini düşünüyor. Şu anda Firefly kümesi, DeepSeek-R1, DeepSeek-MoE gibi modellerin eğitimini destekliyor; bu modeller matematik, kodlama ve diğer karmaşık görevlerde GPT-4 seviyesine yakın performans sergiliyor.
Firefly cluster represents the exploration journey of DeepSeek in new architecture and methods, and also makes the outside world believe that through such innovative technology, DS has reduced the cost of training, and can train with only one-third of the computing power of the most advanced Western models, achieving the performance equivalent to top AI models. SemiAnalysis estimates that DeepSeek actually has a huge computing power reserve: DeepSeek has a total of 60,000 NVIDIA GPU cards, including 10,000 A100s, 10,000 H100s, 10,000 'special edition' H800s, and 30,000 'special edition' H20s.
Bu, R1 kartının oldukça yeterli bir kart olduğu anlamına geliyor gibi görünüyor. Ancak aslında, bir çıkarım modeli olarak R1'in hedefi olan OpenAI'nin O3'ü, bu tür çıkarım modelleri, yanıt aşamasında daha fazla hesaplama gücü dağıtılmasını gerektirir, ancak DS, eğitim maliyetinde tasarruf sağlarken, çıkarım maliyetinde ani bir artış yaşayan hesaplama gücü arasında, hangisinin yüksek olduğu ve hangisinin düşük olduğu şu anda net değil.
Bahsedilmesi gereken bir nokta, DeepSeek-V3 ve DeepSeek-R1'in her ikisinin de büyük dil modelleri olmasıdır, ancak çalışma şekilleri farklıdır. DeepSeek-V3 bir yönerge modelidir, ChatGPT gibi, ipucu kelimeler alır ve buna karşılık gelen metni üretir. Ancak DeepSeek-R1 bir akıl yürütme modelidir, kullanıcı R1'e bir soru sorduğunda, önce büyük miktarda akıl yürütme süreci yapar ve ardından nihai cevabı üretir. R1'in ürettiği belirteçlerde öncelikle birçok düşünce zinciri süreci görünür, model cevabı üretmeden önce soruyu açıklar, soruyu çözümler, tüm bu akıl yürütme süreçleri hızlı bir şekilde belirteç formunda üretilir.
Gate.io
Hemen aktif model ürün tasarımcısı, bağımsız geliştirici Gui Cang, DeepSeek'in takılmasının ana nedeni olarak kart miktarını kabul ediyor. DS'nin şu anda dünya genelinde 140 pazarda en yüksek indirme miktarına sahip olan bir mobil uygulama olarak, şu anda takılma sorunu hiçbir şekilde dayanamaz, hatta yeni kartlar kullanmak da işe yaramaz, çünkü "yeni kartların buluta alınması zaman alıyor".
"NVIDIA A100, H100 ve diğer yongaların bir saatlik çalışma maliyeti adil piyasa fiyatına sahip, DeepSeek'in çıktı tokeninin çıkarsama maliyeti, OpenAI'in benzer modeli o1'e göre %90'dan fazla daha ucuzdur, bu, herkesin hesaplamasına çok fazla sapma olmadığını gösterir, bu nedenle model mimarisi MOE aslında en büyük sorun değildir, ancak DS'in sahip olduğu GPU sayısı, dakikada sunabilecekleri token sayısını belirler, daha fazla GPU'nun çıkarsama hizmeti için kullanılabilmesine rağmen, ön eğitim araştırması için kullanılmaz, ancak sınır orada duruyor." AI'nin doğal uygulaması, KittyFill Light'ın geliştiricisi Chen Yunfei benzer bir görüşü paylaşıyor.
Ayrıca, sektördeki bazı kişiler, DeepSeek'in temel sorununun özel bulutun iyi yapılmamış olması olduğunu Silikon İnsan'a belirtti.
Siber saldırı, R1'in kesilmelerinin diğer bir itici faktörüdür. 30 Ocak'ta, medya güvenlik şirketi Qihoo 360'tan, DeepSeek çevrimiçi hizmetine yönelik saldırı şiddeti aniden yükseldi ve saldırı emri 28 Ocak'tan yüzlerce kez arttı. Qihoo 360 Xlab laboratuvarı, en az 2 zombi ağının saldırıya katıldığını gözlemledi.
Ancak, bu tür R1'in kendi kendine hizmet vermesi durumunda, açıkça görünen bir çözüm var, üçüncü taraf hizmet sağlayıcısıdır. Bu ayrıca, bahar festivali sırasında tanık olduğumuz en canlı manzara - her bir üretici hizmetleri hızla uyguluyor ve insanların DeepSeek'e olan taleplerini karşılıyor.
31 Ocak'ta, NVIDIA, DeepSeek-R1'in kullanıma sunulduğunu duyurdu, önceden NVIDIA DeepSeek'in etkisinden dolayı, bir gecede piyasa değeri neredeyse 6 trilyon dolar düştü. Aynı gün, Amazon AWS kullanıcıları yapay zeka platformları olan Amazon Bedrock ve Amazon SageMaker AI'da DeepSeek'in en son R1 temel modelini dağıtabilirler. Bundan sonra, Perplexity, Cursor dahil olmak üzere AI uygulamaları, DeepSeek'e toplu olarak erişti. Microsoft ise Amazon ve NVIDIA'dan önce, DeepSeek-R1'i öncelikle Azure ve Github bulut hizmetlerine dağıttı.
1 Şubat'tan itibaren, Huawei Cloud, Alibaba Cloud, ByteDance'in sahip olduğu Volcano Engine ve Tencent Cloud da bu araya katıldılar, genellikle DeepSeek tam serisi, tam boyutlu model dağıtım hizmeti sunarlar. Bundan sonra, Biren Technology, Hanbo Semiconductor, Ascend, Muxi ve diğer AI yonga üreticileri yer alıyor, onlar DeepSeek'in orijinal veya daha küçük boyutlu distile versiyonlarını uyumlu hale getirdiklerini iddia ediyorlar. Yazılım şirketleri açısından, UFIDA, Kingdee vb. bazı ürünlerde DeepSeek modeline erişim sağlar ve ürün gücünü artırır, son olarak Lenovo, Huawei, Honor'un bazı ürünleri DeepSeek modeline erişim sağlar, kenar kişisel asistan ve otomobil akıllı kokpitleri için kullanılır.
Bugüne kadar, DeepSeek kendi değeri ile geniş bir çevre çekti, iç ve dış bulut sağlayıcıları, operatörler, komisyoncular ve ulusal seviyede süper bilgisayar internet platformu dahil olmak üzere. DeepSeek-R1 tamamen açık kaynaklı bir model olduğundan, hizmet sağlayıcıları DS modelinin faydalanıcıları haline geldi. Bu durum bir yandan DS'nin görünürlüğünü büyük ölçüde artırdı, diğer yandan daha sık donma olaylarına neden oldu, hizmet sağlayıcıları ve DS kendisi hızla artan kullanıcı yoğunluğundan dolayı giderek daha fazla sıkıntı çekiyor, ancak istikrarlı kullanım sorununu çözmenin kilit noktasını bulamıyorlar.
DeepSeek V3 ve R1 modellerinin orijinal versiyonlarının her ikisi de 6710 milyar parametreye sahip olduğu düşünüldüğünde, bunların bulut ortamında çalıştırılması uygun olacaktır. Bulut sağlayıcılar kendileri daha fazla hesaplama gücüne ve çıkarım yeteneğine sahip oldukları için DeepSeek ile ilgili dağıtım hizmetlerini sunarak işletmelerin kullanım eşiğini düşürmeyi amaçlamaktadır. DeepSeek modelinin dağıtılmasından sonra, DS modeli için API sunmak, DS'in kendi API sunmasına kıyasla daha iyi bir kullanım deneyimi sunabileceği düşünülmektedir.
Ancak gerçekte, DeepSeek-R1 modelinin kendi çalışma deneyimi sorunu, hizmet sağlayıcıların hiçbirinde çözülmemiştir, dış dünya hizmet sağlayıcıların kart eksikliği yaşamadığını düşünse de, aslında R1'in dağıtımı, geliştiricilerin kararlılık geribildirimine karşılık gelmeyen deneyimlerine karşı frekans açısından tamamen R1 ile aynıdır, bu durum daha çok R1'e verilebilecek çarpan miktarının çok fazla olmamasıyla ilgilidir.
"R1 sıcaklığı yüksek seviyede tutulurken, hizmet sağlayıcıların diğer modellere erişimini dengelemeleri gerekiyor. R1'e sağlanabilecek kartlar çok sınırlıdır ve R1'in sıcaklığı yüksektir, bu yüzden biri R1'e girdiğinde, nispeten düşük bir fiyatla sunulursa, ezilir." Model ürün tasarımcısı, bağımsız geliştirici Gui Cang, nedenleri açıkladı.
Model dağıtım optimizasyonu, eğitimin tamamlanmasından gerçek donanım dağıtımına kadar birçok aşamayı kapsayan geniş bir alandır, ancak DeepSeek'in takılma olayları için nedeni muhtemelen daha basit olabilir, örneğin çok büyük modeller ve çevrimiçi öncesi yetersiz optimizasyon hazırlığı gibi.
Bir popüler büyük modelin çevrimiçi olmadan önce, teknik, mühendislik, iş ve diğer alanlarda bir dizi zorlukla karşılaşabilir, örneğin eğitim verileri ile üretim ortamı verilerinin tutarlılığı, veri gecikmesi ile gerçek zamanlılık model çıkarım etkisi, çevrimiçi çıkarım verimliliği ve yüksek kaynak kullanımı, model genelleme yeteneği yetersiz, hizmet istikrarı, API ve sistem entegrasyonu gibi mühendislik açısından zorluklar.
Birçok popüler büyük modelin çevrimiçi olmadan önce çıkarım optimizasyonuna büyük önem verildi, çünkü hesaplama süresi ve bellek sorunları vardır; ilki çıkarım gecikmesinin çok uzun olması nedeniyle kullanıcı deneyimini olumsuz etkiler ve gecikme gereksinimlerini karşılayamaz, yani donma gibi fenomenler ortaya çıkarır; ikincisi model parametre sayısının fazla olması, bellek tüketir ve hatta tek bir GPU kartı sığdıramaz, bu da donmalara neden olabilir.
Wen Tingcan explained to the Siliconians the reason, he called the challenge encountered by the service provider in providing the R1 service, the essence is that the DS model structure is special, the model is too large + MOE (expert mixed structure, an efficient way of calculation) architecture, "(service provider) optimization takes time, but market heat has a time window, so it is all first launched and then optimized, rather than fully optimized before going online.
R1'ın istikrarlı bir şekilde çalışması için, şu anda önemli olan şey, akıl yürütme tarafındaki rezerv ve optimizasyon yeteneğidir. DeepSeek'in yapması gereken, akıl yürütmenin maliyetini düşürmek, kart çıkışını azaltmak ve tek seferde çıkan jeton miktarını azaltmaktır.
Aynı zamanda, takılma, DS'in kendi başına hesaplama gücünün muhtemelen SemiAnalysis'in iddia ettiği kadar büyük olmadığını da gösteriyor, sihirli kare fon şirketi kart kullanmak zorunda, DeepSeek eğitim ekibi de kart kullanmak zorunda, kullanıcılara sunulan kartlar her zaman azalmıyor. Mevcut gelişme durumuna göre, DeepSeek'in kısa vadede servis kiralama için harcama yapacak motivasyonu olmayabilir ve daha sonra kullanıcılara ücretsiz bir deneyim sunabileceği daha olası değil, muhtemelen ilk C-end ticari modelinin netleşmesini bekleyecekler ve ardından hizmet kiralama konusunu düşünecekler, bu da takılmanın uzun bir süre devam edeceği anlamına geliyor.
"Muhtemelen iki adım atmaları gerekecek: 1) Ücretli mekanizmayı uygulamak, ücretsiz kullanıcı modelinin kullanımını sınırlamak; 2) Bulut hizmeti sağlayıcılarıyla işbirliği yaparak başkalarının GPU kaynaklarını kullanmak." Geliştirici Chen Yunfei'nin sunduğu geçici çözüm endüstri içinde geniş bir fikir birliğine sahip.
Ancak şu anda, DeepSeek kendi "sunucu meşgul" sorununa çok fazla endişe göstermiyor gibi görünüyor. AGI'yi takip eden bir şirket olarak, DeepSeek, bu yoğun kullanıcı trafiğine fazla odaklanmak istemiyor gibi görünüyor. Kullanıcıların gelecekte "sunucu meşgul" ekranıyla karşılaşmaya alışmaları gerekebilir.
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
DeepSeek'ın 'sunucu meşgul' durumu herkesi deliye çeviriyor, aslında ne olduğu konusunda bir fikir var mı?
Resim kaynağı: Wuji AI tarafından oluşturuldu
DeepSeek sık sık "sunucu meşgul, lütfen daha sonra tekrar deneyin" yanıtı vererek kullanıcıları çıldırtıyor.
Daha önce genel olarak bilinmeyen DeepSeek, 26 Aralık 2024'te GPT 4o'ye rakip V3 dil modelini piyasaya sürmesiyle ün kazandı. 20 Ocak'ta DeepSeek, OpenAI o1'e rakip R1 dil modelini piyasaya sürdü, ardından 'derin düşünme' moduyla üretilen yüksek kaliteli cevaplar ve model eğitimi öncesi maliyetlerin hızla düşebileceğini ortaya koyan yenilikçi sinyaller nedeniyle şirket ve uygulama tamamen dikkat çekti. Daha sonra, DeepSeek R1 sürekli olarak aşırı yüklendi, çevrimiçi arama özelliği aralıklı olarak felç oldu, derin düşünme modu ise sık sık 'sunucu meşgul' uyarısı verdi, bu tür olaylar birçok kullanıcı için büyük sıkıntıya neden oldu.
Birkaç gün önce, DeepSeek, sunucu kesintileri yaşamaya başladı, 27 Ocak öğlen saatlerinde, DeepSeek resmi web sitesi birkaç kez "deepseek web/api kullanılamıyor" mesajını gösterdi, aynı gün, DeepSeek, hafta sonu boyunca en yüksek iPhone indirme miktarına sahip uygulama haline geldi ve ABD bölgesinde ChatGPT'yi geride bıraktı.
5 Şubat'ta, DeepSeek'in mobil uygulaması 26 gün sonra 40 milyonun üzerinde günlük aktif kullanıcı sayısına ulaştı, ChatGPT'nin mobil uygulamasının günlük aktif kullanıcı sayısı ise 54,95 milyon olarak gerçekleşti; bu da DeepSeek'in ChatGPT'nin %74,3'üne denk gelmektedir. DeepSeek neredeyse dik bir büyüme eğrisine adım attığı anda, sunucularının yoğunluğu hakkındaki eleştiriler ardı arkası kesilmedi. Tüm dünya kullanıcıları, birkaç soru sorduktan sonra çökmelerle karşılaşmaya başladı; DeepSeek'in yedek erişim siteleri gibi çeşitli alternatifler ortaya çıkmaya başladı. Büyük bulut hizmet sağlayıcıları, yonga üreticileri ve altyapı şirketleri de dahil olmak üzere pek çok farklı firma hizmete girdi; kişisel dağıtım kılavuzları her yerde mevcuttu. Ancak insanların sinir bozukluğu hala azalmadı: Neredeyse tüm önemli şirketler, DeepSeek'i desteklemeyi taahhüt etmesine rağmen, kullanıcılar hala hizmetin istikrarsızlığından şikayetçi.
Bu arkasında aslında ne oldu?
1、ChatGPT的人们习惯了,无法忍受打不开的DeepSeek
“DeepSeek sunucularının meşgul olduğuna” yönelik insanların memnuniyetsizliği, önceden ChatGPT'nin başlıca AI uygulamalarından kaynaklanan takılmaların nadir olması nedeniyledir.
OpenAI hizmeti piyasaya sürüldüğünden beri, ChatGPT birkaç P0 seviyesi (en ciddi kaza seviyesi) kesinti yaşasa da genel olarak oldukça güvenilir olduğu ve yenilik ile istikrar arasında bir denge bulduğu ve giderek geleneksel bulut hizmetleri gibi önemli bir bileşen haline geldiği söylenebilir.
ChatGPT'un geniş çaplı çökme sayısı çok fazla değil.
ChatGPT'in çıkarım süreci nispeten istikrarlıdır, kodlama ve çözümleme olmak üzere iki adımdan oluşur, kodlama aşamasında giriş metni vektöre dönüştürülür, vektör giriş metnin anlamsal bilgisini içerir, çözümleme aşamasında ChatGPT önceki üretilen metni bağlam olarak kullanır, Transformer modeli aracılığıyla bir sonraki kelimeyi veya ifadeyi oluşturur, istenilen tam cümleyi oluşturana kadar, büyük model kendisi bir Decoder (çözümleyici) mimarisine aittir, çözümleme aşaması, her seferinde ChatGPT'ye bir soru sorduğunuzda, bir çıkarım süreci başlatılır.
Örneğin, ChatGPT'ye "Bugün nasıl hissediyorsun?" diye sorarsanız, ChatGPT bu cümleyi kodlar, her katman için dikkat temsili oluşturur, önceki tüm belirteçlerin dikkat temsiline göre ilk çıkış belirteci olan "beni" tahmin eder, ardından çözümleme yapar, "beni"'yi "Bugün nasıl hissediyorsun?"'a ekler, ardından "Bugün nasıl hissediyorsun? Ben" alır, yeni bir dikkat temsili elde eder ve ardından bir sonraki belirteci tahmin eder: "nin", ardından ilk adıma, ikinci adıma dönerek, sonunda "Bugün nasıl hissediyorsun? Benim ruh halim çok iyi."'yi elde edersiniz.
Kubernetes, the tool for orchestrating containers, is the "behind-the-scenes commander" of ChatGPT, responsible for scheduling and allocating server resources. When the influx of users exceeds the capacity of Kubernetes' control plane, it leads to a complete system collapse of ChatGPT.
ChatGPT'ın çökme sayısı çok fazla değil, ancak bunun arkasında destek olarak kullandığı güçlü kaynaklar var. Kararlı çalışmayı sürdürmek için güçlü bir hesaplama gücü gereklidir ve bu, insanların göz ardı ettiği bir noktadır.
Genellikle, çıkarım işleminin veri boyutu genellikle küçük olduğundan, gücün talebi eğitim kadar yüksek değildir. Endüstri uzmanları, normal büyük model çıkarım sürecinde, belleğin model parametre ağırlığını büyük ölçüde kapladığını tahmin ediyorlar, yaklaşık olarak %80'in üzerinde. Gerçek şu ki, ChatGPT'nin dahili birçok modeli, varsayılan model boyutları DeepSeek-R1'in 671B'sinden daha küçüktür, ayrıca ChatGPT, DeepSeek'ten çok daha fazla GPU gücüne sahip olduğundan, doğal olarak DS-R1'den daha istikrarlı bir performans sergiler.
DeepSeek-V3 ve R1, 671B bir modeldir, modelin başlatılma süreci akıl yürütme sürecidir, akıl yürütme sırasında güç rezervi kullanıcı sayısı ile uyumlu olmalıdır, örneğin 100 milyon kullanıcı varsa 100 milyon kullanıcı sayısına sahip bir grafik kartı gereklidir, sadece büyük değil, ayrıca eğitim sırasındaki güç rezervinden bağımsızdır ve ilişkili değildir. Çeşitli bilgilere göre, DS'in grafik kartı ve güç rezervi açıkça yetersiz olduğundan sık sık takılıyor.
Bu karşılaştırma, ChatGPT'nin pürüzsüz deneyimine alışmış kullanıcılar için alışılmadık bir durum, özellikle R1'e olan ilgileri giderek artarken.
2、Kart, kart veya kart
Ayrıca, dikkatlice karşılaştırıldığında, OpenAI ve DeepSeek'in karşılaştığı durum çok farklı.
Öncü, Microsoft'un desteğiyle, OpenAI'in özel platformu olarak, Microsoft Azure bulut hizmeti, ChatGPT, Dalle-E 2 görüntü oluşturucu ve GitHub Copilot otomatik kodlama aracını barındırıyor; bu kombinasyon bulut ve yapay zeka için klasik bir model haline geldi ve hızla endüstri standardı haline geldi. İkincisi, çoğunlukla kendi veri merkezlerine dayanan bir girişim olmasına rağmen, Google gibi üçüncü taraf bulut bilişim sağlayıcılarına bağlı değil.
Ayrıca, DeepSeek benzersiz bir kullanıcı büyümesi ile karşılaştı, bu da onun ChatGPT'den daha az hazırlık süresine sahip olduğu anlamına geliyor.
DeepSeek'in iyi performansı, donanım ve sistem düzeyinde yapılan genel optimizasyonundan kaynaklanmaktadır. DeepSeek'in ana şirketi olan Fantasia Quantitative, 2019 yılında Firefly-1 süper bilgi işlem kümesini oluşturmak için 2 milyar dolar harcadı ve 22 yılına kadar binlerce A100 grafik kartını sessizce depoladı. Daha verimli paralel eğitim için DeepSeek, HAI LLM eğitim çerçevesini kendi geliştirdi. Endüstri, Firefly kümesinin güçlü paralel hesaplama yeteneği sunmak için binlerce hatta onbinlerce yüksek performanslı GPU (Nvidia A100/H100 veya yerli yongalar gibi) kullanmış olabileceğini düşünüyor. Şu anda Firefly kümesi, DeepSeek-R1, DeepSeek-MoE gibi modellerin eğitimini destekliyor; bu modeller matematik, kodlama ve diğer karmaşık görevlerde GPT-4 seviyesine yakın performans sergiliyor.
Firefly cluster represents the exploration journey of DeepSeek in new architecture and methods, and also makes the outside world believe that through such innovative technology, DS has reduced the cost of training, and can train with only one-third of the computing power of the most advanced Western models, achieving the performance equivalent to top AI models. SemiAnalysis estimates that DeepSeek actually has a huge computing power reserve: DeepSeek has a total of 60,000 NVIDIA GPU cards, including 10,000 A100s, 10,000 H100s, 10,000 'special edition' H800s, and 30,000 'special edition' H20s.
Bu, R1 kartının oldukça yeterli bir kart olduğu anlamına geliyor gibi görünüyor. Ancak aslında, bir çıkarım modeli olarak R1'in hedefi olan OpenAI'nin O3'ü, bu tür çıkarım modelleri, yanıt aşamasında daha fazla hesaplama gücü dağıtılmasını gerektirir, ancak DS, eğitim maliyetinde tasarruf sağlarken, çıkarım maliyetinde ani bir artış yaşayan hesaplama gücü arasında, hangisinin yüksek olduğu ve hangisinin düşük olduğu şu anda net değil.
Bahsedilmesi gereken bir nokta, DeepSeek-V3 ve DeepSeek-R1'in her ikisinin de büyük dil modelleri olmasıdır, ancak çalışma şekilleri farklıdır. DeepSeek-V3 bir yönerge modelidir, ChatGPT gibi, ipucu kelimeler alır ve buna karşılık gelen metni üretir. Ancak DeepSeek-R1 bir akıl yürütme modelidir, kullanıcı R1'e bir soru sorduğunda, önce büyük miktarda akıl yürütme süreci yapar ve ardından nihai cevabı üretir. R1'in ürettiği belirteçlerde öncelikle birçok düşünce zinciri süreci görünür, model cevabı üretmeden önce soruyu açıklar, soruyu çözümler, tüm bu akıl yürütme süreçleri hızlı bir şekilde belirteç formunda üretilir.
Gate.io
Hemen aktif model ürün tasarımcısı, bağımsız geliştirici Gui Cang, DeepSeek'in takılmasının ana nedeni olarak kart miktarını kabul ediyor. DS'nin şu anda dünya genelinde 140 pazarda en yüksek indirme miktarına sahip olan bir mobil uygulama olarak, şu anda takılma sorunu hiçbir şekilde dayanamaz, hatta yeni kartlar kullanmak da işe yaramaz, çünkü "yeni kartların buluta alınması zaman alıyor".
"NVIDIA A100, H100 ve diğer yongaların bir saatlik çalışma maliyeti adil piyasa fiyatına sahip, DeepSeek'in çıktı tokeninin çıkarsama maliyeti, OpenAI'in benzer modeli o1'e göre %90'dan fazla daha ucuzdur, bu, herkesin hesaplamasına çok fazla sapma olmadığını gösterir, bu nedenle model mimarisi MOE aslında en büyük sorun değildir, ancak DS'in sahip olduğu GPU sayısı, dakikada sunabilecekleri token sayısını belirler, daha fazla GPU'nun çıkarsama hizmeti için kullanılabilmesine rağmen, ön eğitim araştırması için kullanılmaz, ancak sınır orada duruyor." AI'nin doğal uygulaması, KittyFill Light'ın geliştiricisi Chen Yunfei benzer bir görüşü paylaşıyor.
Ayrıca, sektördeki bazı kişiler, DeepSeek'in temel sorununun özel bulutun iyi yapılmamış olması olduğunu Silikon İnsan'a belirtti.
Siber saldırı, R1'in kesilmelerinin diğer bir itici faktörüdür. 30 Ocak'ta, medya güvenlik şirketi Qihoo 360'tan, DeepSeek çevrimiçi hizmetine yönelik saldırı şiddeti aniden yükseldi ve saldırı emri 28 Ocak'tan yüzlerce kez arttı. Qihoo 360 Xlab laboratuvarı, en az 2 zombi ağının saldırıya katıldığını gözlemledi.
Ancak, bu tür R1'in kendi kendine hizmet vermesi durumunda, açıkça görünen bir çözüm var, üçüncü taraf hizmet sağlayıcısıdır. Bu ayrıca, bahar festivali sırasında tanık olduğumuz en canlı manzara - her bir üretici hizmetleri hızla uyguluyor ve insanların DeepSeek'e olan taleplerini karşılıyor.
31 Ocak'ta, NVIDIA, DeepSeek-R1'in kullanıma sunulduğunu duyurdu, önceden NVIDIA DeepSeek'in etkisinden dolayı, bir gecede piyasa değeri neredeyse 6 trilyon dolar düştü. Aynı gün, Amazon AWS kullanıcıları yapay zeka platformları olan Amazon Bedrock ve Amazon SageMaker AI'da DeepSeek'in en son R1 temel modelini dağıtabilirler. Bundan sonra, Perplexity, Cursor dahil olmak üzere AI uygulamaları, DeepSeek'e toplu olarak erişti. Microsoft ise Amazon ve NVIDIA'dan önce, DeepSeek-R1'i öncelikle Azure ve Github bulut hizmetlerine dağıttı.
1 Şubat'tan itibaren, Huawei Cloud, Alibaba Cloud, ByteDance'in sahip olduğu Volcano Engine ve Tencent Cloud da bu araya katıldılar, genellikle DeepSeek tam serisi, tam boyutlu model dağıtım hizmeti sunarlar. Bundan sonra, Biren Technology, Hanbo Semiconductor, Ascend, Muxi ve diğer AI yonga üreticileri yer alıyor, onlar DeepSeek'in orijinal veya daha küçük boyutlu distile versiyonlarını uyumlu hale getirdiklerini iddia ediyorlar. Yazılım şirketleri açısından, UFIDA, Kingdee vb. bazı ürünlerde DeepSeek modeline erişim sağlar ve ürün gücünü artırır, son olarak Lenovo, Huawei, Honor'un bazı ürünleri DeepSeek modeline erişim sağlar, kenar kişisel asistan ve otomobil akıllı kokpitleri için kullanılır.
Bugüne kadar, DeepSeek kendi değeri ile geniş bir çevre çekti, iç ve dış bulut sağlayıcıları, operatörler, komisyoncular ve ulusal seviyede süper bilgisayar internet platformu dahil olmak üzere. DeepSeek-R1 tamamen açık kaynaklı bir model olduğundan, hizmet sağlayıcıları DS modelinin faydalanıcıları haline geldi. Bu durum bir yandan DS'nin görünürlüğünü büyük ölçüde artırdı, diğer yandan daha sık donma olaylarına neden oldu, hizmet sağlayıcıları ve DS kendisi hızla artan kullanıcı yoğunluğundan dolayı giderek daha fazla sıkıntı çekiyor, ancak istikrarlı kullanım sorununu çözmenin kilit noktasını bulamıyorlar.
DeepSeek V3 ve R1 modellerinin orijinal versiyonlarının her ikisi de 6710 milyar parametreye sahip olduğu düşünüldüğünde, bunların bulut ortamında çalıştırılması uygun olacaktır. Bulut sağlayıcılar kendileri daha fazla hesaplama gücüne ve çıkarım yeteneğine sahip oldukları için DeepSeek ile ilgili dağıtım hizmetlerini sunarak işletmelerin kullanım eşiğini düşürmeyi amaçlamaktadır. DeepSeek modelinin dağıtılmasından sonra, DS modeli için API sunmak, DS'in kendi API sunmasına kıyasla daha iyi bir kullanım deneyimi sunabileceği düşünülmektedir.
Ancak gerçekte, DeepSeek-R1 modelinin kendi çalışma deneyimi sorunu, hizmet sağlayıcıların hiçbirinde çözülmemiştir, dış dünya hizmet sağlayıcıların kart eksikliği yaşamadığını düşünse de, aslında R1'in dağıtımı, geliştiricilerin kararlılık geribildirimine karşılık gelmeyen deneyimlerine karşı frekans açısından tamamen R1 ile aynıdır, bu durum daha çok R1'e verilebilecek çarpan miktarının çok fazla olmamasıyla ilgilidir.
"R1 sıcaklığı yüksek seviyede tutulurken, hizmet sağlayıcıların diğer modellere erişimini dengelemeleri gerekiyor. R1'e sağlanabilecek kartlar çok sınırlıdır ve R1'in sıcaklığı yüksektir, bu yüzden biri R1'e girdiğinde, nispeten düşük bir fiyatla sunulursa, ezilir." Model ürün tasarımcısı, bağımsız geliştirici Gui Cang, nedenleri açıkladı.
Model dağıtım optimizasyonu, eğitimin tamamlanmasından gerçek donanım dağıtımına kadar birçok aşamayı kapsayan geniş bir alandır, ancak DeepSeek'in takılma olayları için nedeni muhtemelen daha basit olabilir, örneğin çok büyük modeller ve çevrimiçi öncesi yetersiz optimizasyon hazırlığı gibi.
Bir popüler büyük modelin çevrimiçi olmadan önce, teknik, mühendislik, iş ve diğer alanlarda bir dizi zorlukla karşılaşabilir, örneğin eğitim verileri ile üretim ortamı verilerinin tutarlılığı, veri gecikmesi ile gerçek zamanlılık model çıkarım etkisi, çevrimiçi çıkarım verimliliği ve yüksek kaynak kullanımı, model genelleme yeteneği yetersiz, hizmet istikrarı, API ve sistem entegrasyonu gibi mühendislik açısından zorluklar.
Birçok popüler büyük modelin çevrimiçi olmadan önce çıkarım optimizasyonuna büyük önem verildi, çünkü hesaplama süresi ve bellek sorunları vardır; ilki çıkarım gecikmesinin çok uzun olması nedeniyle kullanıcı deneyimini olumsuz etkiler ve gecikme gereksinimlerini karşılayamaz, yani donma gibi fenomenler ortaya çıkarır; ikincisi model parametre sayısının fazla olması, bellek tüketir ve hatta tek bir GPU kartı sığdıramaz, bu da donmalara neden olabilir.
Wen Tingcan explained to the Siliconians the reason, he called the challenge encountered by the service provider in providing the R1 service, the essence is that the DS model structure is special, the model is too large + MOE (expert mixed structure, an efficient way of calculation) architecture, "(service provider) optimization takes time, but market heat has a time window, so it is all first launched and then optimized, rather than fully optimized before going online.
R1'ın istikrarlı bir şekilde çalışması için, şu anda önemli olan şey, akıl yürütme tarafındaki rezerv ve optimizasyon yeteneğidir. DeepSeek'in yapması gereken, akıl yürütmenin maliyetini düşürmek, kart çıkışını azaltmak ve tek seferde çıkan jeton miktarını azaltmaktır.
Aynı zamanda, takılma, DS'in kendi başına hesaplama gücünün muhtemelen SemiAnalysis'in iddia ettiği kadar büyük olmadığını da gösteriyor, sihirli kare fon şirketi kart kullanmak zorunda, DeepSeek eğitim ekibi de kart kullanmak zorunda, kullanıcılara sunulan kartlar her zaman azalmıyor. Mevcut gelişme durumuna göre, DeepSeek'in kısa vadede servis kiralama için harcama yapacak motivasyonu olmayabilir ve daha sonra kullanıcılara ücretsiz bir deneyim sunabileceği daha olası değil, muhtemelen ilk C-end ticari modelinin netleşmesini bekleyecekler ve ardından hizmet kiralama konusunu düşünecekler, bu da takılmanın uzun bir süre devam edeceği anlamına geliyor.
"Muhtemelen iki adım atmaları gerekecek: 1) Ücretli mekanizmayı uygulamak, ücretsiz kullanıcı modelinin kullanımını sınırlamak; 2) Bulut hizmeti sağlayıcılarıyla işbirliği yaparak başkalarının GPU kaynaklarını kullanmak." Geliştirici Chen Yunfei'nin sunduğu geçici çözüm endüstri içinde geniş bir fikir birliğine sahip.
Ancak şu anda, DeepSeek kendi "sunucu meşgul" sorununa çok fazla endişe göstermiyor gibi görünüyor. AGI'yi takip eden bir şirket olarak, DeepSeek, bu yoğun kullanıcı trafiğine fazla odaklanmak istemiyor gibi görünüyor. Kullanıcıların gelecekte "sunucu meşgul" ekranıyla karşılaşmaya alışmaları gerekebilir.