Джерело зображення: згенеровано безмежним штучним інтелектом
Часті відповіді DeepSeek з повідомленням "Сервер зайнятий, спробуйте пізніше" роблять користувачів по всьому світу божевільними.
DeepSeek, який не був добре відомий громадськості, здобув популярність із запуском V3, мовної моделі, порівняної з GPT 4o, 26 грудня 2024 року. 20 січня DeepSeek випустила R1, мовну модель, яка бенчмаркує OpenAI o1, а потім компанія та її додаток повністю вийшли з кола через високу якість відповідей, згенерованих режимом «Глибоке мислення», і позитивний сигнал про те, що її інновації показують, що початкові витрати на навчання моделей можуть різко впасти. З тих пір DeepSeek R1 переживає перевантаження, з періодичним паралічем функції онлайн-пошуку і високою частотою «зайнятості сервера» в режимі глибокого мислення, що турбувало велику кількість користувачів.
Кілька днів тому DeepSeek почав переживати відмову в роботі сервера, 27 січня в обідню пору офіційний веб-сайт DeepSeek кілька разів показав "сторінка/api deepseek недоступна", того ж дня DeepSeek став найбільш завантажуваною програмою в App Store вихідного тижня, випередивши ChatGPT у списку завантажень у США.
5 лютого DeepSeek мобільної версії було запущено 26 днів тому, щоденна активність перевищила 40 мільйонів, а для мобільної версії ChatGPT цей показник становить 54,95 мільйона, що становить 74,3% від DeepSeek. Практично одночасно з імпульсним зростанням DeepSeek, почалася справжня хвиля скарг на зайнятість серверів, користувачі почали зіткнюватися з нестабільною роботою під час відповіді на запити, з'явилися різноманітні альтернативні варіанти доступу, такі як альтернативний сайт DeepSeek, на якому працюють всі провайдери хмарних послуг, виробники мікросхем та компанії, що надають базову інфраструктуру, а також посібники з особистого розгортання з'явилися скрізь. Але це не полегшило стан користувачів: майже всі важливі компанії світу заявляють про підтримку розгортання DeepSeek, але користувачі по всьому світу все ще скаржаться на нестабільність обслуговування.
Що ж тут відбувається?
1、Люди, які звикли до ChatGPT, не можуть витримати DeepSeek, який не відкривається
Незадоволення людей "DeepSeek сервер зайнятий" походить з того, що раніше головними застосунками штучного інтелекту були ChatGPT, які майже ніколи не лагали.
З моменту запуску сервісу OpenAI, ChatGPT, хоча й відчував декілька аварійного рівня (найважливіші аварійні ситуації) аварії з відмовою, але в цілому він відносно надійний, вже знаходить баланс між інноваціями та стабільністю, і поступово стає ключовою складовою схожої на традиційні хмарні сервіси.
Частота великих вимкнень ChatGPT не дуже велика
Процес мислення ChatGPT відносно стабільний і складається з двох етапів: кодування та декодування. На етапі кодування вхідний текст перетворюється на вектор, який містить семантичну інформацію вхідного тексту. На етапі декодування ChatGPT використовує раніше згенерований текст як контекст, за допомогою моделі трансформатора генерує наступне слово або фразу, поки не згенерує повне речення, що відповідає вимогам. Сама велика модель є частиною архітектури декодера, а етап декодування є процесом виведення токенів (найменша одиниця обробки тексту великою моделлю) по одному. Кожен раз, коли ChatGPT поставляється питання, відбувається процес мислення.
Наприклад, якщо ви запитаєте ChatGPT: "Як ви сьогодні почуваєтеся?", ChatGPT закодує це речення, згенерує представлення уваги для кожного шару, з урахуванням уваги до всіх попередніх токенів, передбачає перший вихідний токен "Я", потім розкодує його, додає "Я" до "Як ви сьогодні почуваєтеся?", потім отримує "Як ви сьогодні почуваєтеся? Я", отримує нове представлення уваги, потім передбачає наступний токен: "добре", потім повторює перший та другий кроки, і в кінці отримує: "Як ви сьогодні почуваєтеся? Моє самопочуття дуже добре."
Інструмент Kubernetes, що відповідає за розкладання контейнерів, є «директором за кулісами» ChatGPT, він відповідає за планування та розподіл ресурсів сервера. Коли кількість користувачів, що надходять, перевищує можливості керуючого плану Kubernetes, це призводить до повного паралізу системи ChatGPT.
Кількість загальних випадків паралізу системи ChatGPT не дуже велика, але за її спиною стоїть потужний ресурс, що забезпечує стабільну роботу, а це - потужна обчислювальна потужність, яку люди часто ігнорують.
Загалом, через те, що обсяг даних, які обробляються при розрахунку, зазвичай невеликий, вимоги до обчислювальної потужності не такі високі, як під час навчання. Фахівці галузі оцінюють, що під час звичайного процесу великого моделювання вага параметрів моделі в оперативній пам'яті становить більше 80%. У реальності вбудовані в ChatGPT декілька моделей мають розмір за замовчуванням менший, ніж 671B у DeepSeek-R1, і, крім того, ChatGPT має значно більшу обчислювальну потужність GPU, що природно виявляється більш стабільними результатами, ніж DS-R1.
DeepSeek-V3 та R1 - це моделі 671B, процес запуску моделі є процесом міркування, резерв обчислювальної потужності під час міркування повинен відповідати обсягу користувачів, наприклад, якщо є 1 мільярд користувачів, потрібно мати графічні карти для 1 мільярда користувачів, вони не тільки великі, але й незалежні від резерву обчислювальної потужності під час навчання, і не пов'язані між собою. З різних джерел видно, що відеокарти DS та резерв обчислювальної потужності відчутно недостатні, тому вони часто працюють з перешкодами.
Це порівняння робить користувачів, які звикли до шовкового досвіду ChatGPT, не звиклими, особливо зараз, коли їх інтерес до R1 зростає.
2、картка, карта або карта
Крім того, якщо уважно порівняти, ситуація, з якою стикається OpenAI і DeepSeek, досить відмінна.
Перший має підтримку від Microsoft та є виключною платформою OpenAI, на якій працюють ChatGPT, Dalle-E 2 для створення зображень та інструмент автоматичного кодування GitHub Copilot. Після цього цей набір став класичним патерном хмарових послуг та штучного інтелекту, і швидко став стандартом у галузі; другий, хоч і є стартапом, в основному користується власними центрами обробки даних, схоже на Google, і не покладається на постачальників хмарних обчислень третіх сторін. SiliconStar виявив, що на DeepSeek немає жодного рівня співпраці з виробниками чіпів хмарних фабрик (навіть якщо відомості публікуються під час китайського Нового року, що компанії хмарних фабрик почали запускати модель DeepSeek на своїх платформах, вони не розпочали жодної дійсної співпраці).
Крім того, DeepSeek зіткнувся з безпрецедентним зростанням користувачів, що означає, що час підготовки до відповіді на стимулюючі ситуації в нього менше, ніж у ChatGPT.
Висока продуктивність DeepSeek походить від загальної оптимізації на апаратному та системному рівнях. Мати DeepSeek, квантова компанія, вже в 2019 році витратила 2 мільярди на створення кластера суперкомп'ютерів Firefly One, який до 22 року тихо зберігатиме тисячі карт A100, щоб забезпечити більш ефективне паралельне навчання, DeepSeek самостійно розробив каркасну систему навчання HAI LLM. Зауважується, що кластер Firefly може використовувати від кількох тисяч до декількох десятків тисяч високопродуктивних GPU (таких як NVIDIA A100/H100 або вітчизняні чіпи), щоб забезпечити потужність паралельних обчислень. На даний момент кластер Firefly підтримує навчання моделей DeepSeek-R1, DeepSeek-MoE та інших, які проявляють результати, що близькі до рівня GPT-4 в математиці, кодуванні та інших складних завданнях.
Комплекс Firefly представляє собою дослідницький шлях DeepSeek в новій архітектурі та методиках, що дозволяє зовнішньому світу вважати, що за допомогою таких інноваційних технологій DS знизив вартість навчання, може здійснити навчання з використанням лише частини потужності найсучаснішої моделі західної моделі, що дорівнює R1, яка має таку ж продуктивність, як і модель штучного інтелекту верхнього рівня. SemiAnalysis вказує, що у DeepSeek фактично є великий запас обчислювальної потужності: DeepSeek зібрав усього 60 000 карт NVIDIA GPU, включаючи 10 000 карт A100, 10 000 карт H100, 10 000 карт "спеціальної версії" H800 та 30 000 карт "спеціальної версії" H20.
Це, здається, означає, що картковий обсяг R1 досить великий. Але фактично, R1 як модель роздумів, порівнюється з O3 від OpenAI, і ці моделі роздумів потребують більше обчислювальної потужності для відповідей, але DS зберігає обчислювальну потужність в частині тренування вартості, але відповідно до збільшення обчислювальної потужності у частині роздумів, яка з них вища, а яка нижча, наразі не зовсім зрозуміло.
Варто зазначити, що DeepSeek-V3 та DeepSeek-R1 - це обидва великі мовні моделі, але вони працюють по-різному. DeepSeek-V3 - це модель команд, схожа на ChatGPT, яка отримує підказки та генерує відповідний текст для відповіді. Але DeepSeek-R1 - це модель мислення, коли користувач питає R1, він спочатку проводить велику кількість мислительних процесів, а потім генерує остаточну відповідь. У токені, що генерується R1, спочатку з'являється велика кількість ланок мислення, модель пояснює питання, розкладає його на складові, всі ці мислительні процеси швидко генеруються у вигляді токенів перед генерацією відповіді.
За словами віце-президента Яоту Капіталу Вена Тінг-цана, велика потужність DeepSeek на етапі навчання означає, що команді потужності на етапі навчання можна планувати, передбачати, що не виникає недостатньо потужності, але потужність мислення невизначеність велика, оскільки вона в основному залежить від масштабу користувачів та обсягу використання, відносно гнучка, "потужність мислення буде зростати за певним законом, але з DeepSeek стає явищем великого масштабу, користувачів і обсягу використання вибухово зростає в короткий проміжок часу, це призводить до вибухового зростання потреб потужності мислення на етапі мислення, тому виникає затримка."
Він вважає, що DS, як найбільш завантажуваний мобільний додаток на 140 ринках по всьому світу, не може вмістити поточну картку, незважаючи ні на що, навіть з новою карткою, тому що «потрібен час, щоб нова карта потрапила в хмару».
«Вартість запуску таких чіпів, як Nvidia A100 і H100, протягом години має справедливу ринкову ціну, а DeepSeek більш ніж на 90% дешевший за аналогічну модель o1 від OpenAI з точки зору вартості виведення вихідного токена, яка мало чим відрізняється від усіх розрахунків, тому сама архітектура моделі MOE не є головною проблемою, але кількість графічних процесорів, що належать DS, визначає максимальну кількість токенів, які вони можуть виробляти за хвилину, навіть якщо більше графічних процесорів може бути використано для користувачів сервісу логічного висновку, І не для передтренувального навчання, а стеля є. Чень Юньфей, розробник нативного ШІ-додатку Kitten Fill Light, дотримується схожої думки.
Також представники галузі зазначають Галактичній компанії, що сутність зависоких DeepSeek полягає в тому, що приватний хмарний сервіс не було належним чином налаштований.
Кібератаки становлять ще один чинник, який спричинює затримки R1. 30 січня засоби масової інформації дізналися від компанії з кібербезпеки Qihoo 360, що інтенсивність атак на онлайн сервіс DeepSeek раптово зросла, атаки збільшилися в сотні разів порівняно з 28 січня. Лабораторія Xlab компанії Qihoo 360 помітила принаймні дві бот-мережі, які брали участь у нападі.
Проте це запізнення в обслуговуванні самого R1 має досить очевидний рішення - послуги від сторонніх постачальників. Це також найбільш жвавий вид зображення, який ми спостерігали під час святкування весняного свята - всі виробники поспішали надати послуги, задовольняючи потреби людей у DeepSeek.
31 січня компанія NVIDIA оголосила, що NVIDIA NIM тепер може бути використаний у DeepSeek-R1, після того як раніше компанія постраждала від DeepSeek, втративши приблизно 600 мільярдів доларів США за одну ніч. Того ж дня користувачі хмарного сервісу AWS від Amazon можуть використовувати останню базову модель R1 DeepSeek на їхніх платформах штучного інтелекту Amazon Bedrock і Amazon SageMaker AI. Пізніше нові гравці на ринку штучного інтелекту, такі як Perplexity та Cursor, також масово підключаються до DeepSeek. Microsoft випередила Amazon та NVIDIA, першою впровадивши DeepSeek-R1 на хмарові сервіси Azure та Github.
З 1 лютого починаючи з четвертого дня нового року від Huawei Cloud, Alibaba Cloud, дочірніх підприємств Fire Engine і Tencent Cloud також долучилися до них, зазвичай вони надають послуги розгортання повного розміру моделі DeepSeek. Після цього є виробники AI-чіпів, такі як Biren Technology, Hanbo Semiconductor, Ascend, Muxi та інші, які вони стверджують, що адаптували оригінальну версію або менші версії виробництва DeepSeek. Щодо компаній-розробників програмного забезпечення, Yonyou, Kingdee та інші інтегрують модель DeepSeek у деякі продукти для посилення їх продуктивності, нарешті, виробники обладнання, такі як Lenovo, Huawei, Honor та деякі продукти під брендом, включаючи модель DeepSeek, використовуються як особисті помічники на кінцевих пристроях та в автомобільних інтелектуальних кабінах.
Досі DeepSeek завдяки своїй вартості привернув широке коло друзів, включаючи хмарних постачальників, операторів, брокерів і національні платформи для інтернету національного суперкомп'ютера як в країні, так і за її межами. Оскільки DeepSeek-R1 є повністю відкритою моделлю, сервіс провайдери, які підключаються, стають одержувачами переваг моделі DS. З одного боку це значно підвищує обсяг DS, але водночас призводить до частіших затримок, сервіс-провайдери та сам DS поступово опиняються під тиском від припливу користувачів, і не можуть знайти ключ до вирішення проблем стабільного використання.
З урахуванням того, що оригінальні версії моделей DeepSeek V3 та R1 мають 671 мільярд параметрів, вони підходять для роботи в хмарі, оскільки хмарні постачальники мають більш потужні обчислювальні та мовні здатності. Вони запускають послуги розгортання, пов'язані з DeepSeek, для зниження порогу використання підприємством. Після розгортання моделі DeepSeek вони надають зовнішній API моделі DS, яке, на відміну від API DS, вважається більш зручним у використанні, ніж офіційний API DS.
Проте на практиці проблеми використання моделі DeepSeek-R1 не були вирішені жодними постачальниками послуг, зовнішній світ вважає, що у постачальників послуг немає недоліків, але насправді кількість карт, які вони розгортають, і повідомлення розробників про нестабільний досвід реакції повністю відповідають R1, це більше пов'язано з тим, що кількість карт, які можна призначити для міркувань R1, не дуже велика.
«R1 популярність залишається на високому рівні, постачальникам послуг потрібно враховувати інші моделі, які можна підключити, можливості надання карток для R1 обмежені, R1 популярність висока, якщо хтось з дому використовує R1, і віддає його за відносно низьку ціну, то його може зруйнувати.» Про це пояснив дизайнер моделей продуктів, незалежний розробник Гуі Цанґ силіконовим інопланетянам.
Оптимізація розгортання моделі - це широке поле, що охоплює багато аспектів, від завершення навчання до фактичного розгортання апаратного забезпечення, що включає багатошарову роботу, але для подій каратання DeepSeek причини можуть бути простішими, наприклад, занадто великою моделлю та недостатньою оптимізацією перед запуском.
Перед тим як запустити популярну велику модель, доведеться вирішити ряд технічних, інженерних, бізнесових та інших викликів, таких як узгодженість даних для навчання та виробничого середовища, вплив затримки даних та реального часу на ефективність виводу моделі, надмірна ефективність та зайнятість ресурсів для виведення моделі в мережі, недостатність універсальності моделі та інженерні аспекти, такі як стійкість служб, інтеграція API та систем та інші аспекти.
Багато популярних великих моделей надзвичайно серйозно ставляться до оптимізації розуміння перед введенням у експлуатацію, це через обчислювальний час та проблеми з пам'яттю. Перше - це затримка в розумінні занадто довга, що призводить до поганого користувацького досвіду, навіть не відповідає вимогам затримки, тобто тупіння та інші явища, останнє - це багато параметрів моделі, що вимагає велику кількість пам'яті, навіть одна карта GPU не вміщує, що також може призвести до тупіння.
Вентінг Цан пояснив причину силіконовій людині, він сказав, що постачальнику послуг довелося стикнутися з викликами у наданні послуг R1 через особливу структуру DS-моделі та великий розмір моделі + архітектуру MOE (експертно-змішану структуру, один з способів ефективного обчислення), «(постачальнику послуг) потрібен час для оптимізації, але на ринку є вікно часу, тому всі вони перш ніж оптимізувати, а не виходити на лінію після повної оптимізації.
Для стабільної роботи R1 важливо мати можливість резонування та оптимізації. DeepSeek повинен знайти спосіб зниження вартості резонансу та кількості виведених токенів за один раз.
Тим часом, затримка також вказує на те, що в ІД може і не бути такого великого запасу обчислювальної потужності, як говорить SemiAnalysis, фонд Фан Фан компанії має використовувати карту, команда DeepSeek також повинна використовувати карту, і карт, які можуть бути видані користувачам, завжди не вистачало. За поточною ситуацією короткостроково DeepSeek, можливо, не матиме мотивації витрачати гроші на оренду послуг, а потім надавати користувачам кращий досвід безкоштовно, вони, ймовірно, зачекають, поки не буде чітко вироблений перший хвильовий комерційний модель для C-кінцевих користувачів, і тільки тоді розглядатимуть питання оренди послуг, що також означає, що затримка буде тривати досить довго.
«Ймовірно, їм потрібно зробити два кроки: 1) впровадити платну модель, обмежити обсяг безкоштовного використання для користувачів; 2) укласти угоду з постачальником хмарних послуг і використовувати ресурси GPU інших людей.» Розробник Чен Юнфей запропонував тимчасове рішення, яке має велику підтримку у галузі.
Проте наразі DeepSeek не поспішає з цією проблемою «сервер перевантажений». Як компанія, що полює на AGI, DeepSeek, схоже, не бажає занадто уваги на цей шалений потік користувачів. Можливо, користувачам все ще доведеться звикнути до інтерфейсу «сервер перевантажений» у майбутньому.
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
Повідомлення «сервер зайнятий» від DeepSeek збентежило всіх. Що ж стоїть за цим?
Джерело зображення: згенеровано безмежним штучним інтелектом
Часті відповіді DeepSeek з повідомленням "Сервер зайнятий, спробуйте пізніше" роблять користувачів по всьому світу божевільними.
DeepSeek, який не був добре відомий громадськості, здобув популярність із запуском V3, мовної моделі, порівняної з GPT 4o, 26 грудня 2024 року. 20 січня DeepSeek випустила R1, мовну модель, яка бенчмаркує OpenAI o1, а потім компанія та її додаток повністю вийшли з кола через високу якість відповідей, згенерованих режимом «Глибоке мислення», і позитивний сигнал про те, що її інновації показують, що початкові витрати на навчання моделей можуть різко впасти. З тих пір DeepSeek R1 переживає перевантаження, з періодичним паралічем функції онлайн-пошуку і високою частотою «зайнятості сервера» в режимі глибокого мислення, що турбувало велику кількість користувачів.
Кілька днів тому DeepSeek почав переживати відмову в роботі сервера, 27 січня в обідню пору офіційний веб-сайт DeepSeek кілька разів показав "сторінка/api deepseek недоступна", того ж дня DeepSeek став найбільш завантажуваною програмою в App Store вихідного тижня, випередивши ChatGPT у списку завантажень у США.
5 лютого DeepSeek мобільної версії було запущено 26 днів тому, щоденна активність перевищила 40 мільйонів, а для мобільної версії ChatGPT цей показник становить 54,95 мільйона, що становить 74,3% від DeepSeek. Практично одночасно з імпульсним зростанням DeepSeek, почалася справжня хвиля скарг на зайнятість серверів, користувачі почали зіткнюватися з нестабільною роботою під час відповіді на запити, з'явилися різноманітні альтернативні варіанти доступу, такі як альтернативний сайт DeepSeek, на якому працюють всі провайдери хмарних послуг, виробники мікросхем та компанії, що надають базову інфраструктуру, а також посібники з особистого розгортання з'явилися скрізь. Але це не полегшило стан користувачів: майже всі важливі компанії світу заявляють про підтримку розгортання DeepSeek, але користувачі по всьому світу все ще скаржаться на нестабільність обслуговування.
Що ж тут відбувається?
1、Люди, які звикли до ChatGPT, не можуть витримати DeepSeek, який не відкривається
Незадоволення людей "DeepSeek сервер зайнятий" походить з того, що раніше головними застосунками штучного інтелекту були ChatGPT, які майже ніколи не лагали.
З моменту запуску сервісу OpenAI, ChatGPT, хоча й відчував декілька аварійного рівня (найважливіші аварійні ситуації) аварії з відмовою, але в цілому він відносно надійний, вже знаходить баланс між інноваціями та стабільністю, і поступово стає ключовою складовою схожої на традиційні хмарні сервіси.
Частота великих вимкнень ChatGPT не дуже велика
Процес мислення ChatGPT відносно стабільний і складається з двох етапів: кодування та декодування. На етапі кодування вхідний текст перетворюється на вектор, який містить семантичну інформацію вхідного тексту. На етапі декодування ChatGPT використовує раніше згенерований текст як контекст, за допомогою моделі трансформатора генерує наступне слово або фразу, поки не згенерує повне речення, що відповідає вимогам. Сама велика модель є частиною архітектури декодера, а етап декодування є процесом виведення токенів (найменша одиниця обробки тексту великою моделлю) по одному. Кожен раз, коли ChatGPT поставляється питання, відбувається процес мислення.
Наприклад, якщо ви запитаєте ChatGPT: "Як ви сьогодні почуваєтеся?", ChatGPT закодує це речення, згенерує представлення уваги для кожного шару, з урахуванням уваги до всіх попередніх токенів, передбачає перший вихідний токен "Я", потім розкодує його, додає "Я" до "Як ви сьогодні почуваєтеся?", потім отримує "Як ви сьогодні почуваєтеся? Я", отримує нове представлення уваги, потім передбачає наступний токен: "добре", потім повторює перший та другий кроки, і в кінці отримує: "Як ви сьогодні почуваєтеся? Моє самопочуття дуже добре."
Інструмент Kubernetes, що відповідає за розкладання контейнерів, є «директором за кулісами» ChatGPT, він відповідає за планування та розподіл ресурсів сервера. Коли кількість користувачів, що надходять, перевищує можливості керуючого плану Kubernetes, це призводить до повного паралізу системи ChatGPT.
Кількість загальних випадків паралізу системи ChatGPT не дуже велика, але за її спиною стоїть потужний ресурс, що забезпечує стабільну роботу, а це - потужна обчислювальна потужність, яку люди часто ігнорують.
Загалом, через те, що обсяг даних, які обробляються при розрахунку, зазвичай невеликий, вимоги до обчислювальної потужності не такі високі, як під час навчання. Фахівці галузі оцінюють, що під час звичайного процесу великого моделювання вага параметрів моделі в оперативній пам'яті становить більше 80%. У реальності вбудовані в ChatGPT декілька моделей мають розмір за замовчуванням менший, ніж 671B у DeepSeek-R1, і, крім того, ChatGPT має значно більшу обчислювальну потужність GPU, що природно виявляється більш стабільними результатами, ніж DS-R1.
DeepSeek-V3 та R1 - це моделі 671B, процес запуску моделі є процесом міркування, резерв обчислювальної потужності під час міркування повинен відповідати обсягу користувачів, наприклад, якщо є 1 мільярд користувачів, потрібно мати графічні карти для 1 мільярда користувачів, вони не тільки великі, але й незалежні від резерву обчислювальної потужності під час навчання, і не пов'язані між собою. З різних джерел видно, що відеокарти DS та резерв обчислювальної потужності відчутно недостатні, тому вони часто працюють з перешкодами.
Це порівняння робить користувачів, які звикли до шовкового досвіду ChatGPT, не звиклими, особливо зараз, коли їх інтерес до R1 зростає.
2、картка, карта або карта
Крім того, якщо уважно порівняти, ситуація, з якою стикається OpenAI і DeepSeek, досить відмінна.
Перший має підтримку від Microsoft та є виключною платформою OpenAI, на якій працюють ChatGPT, Dalle-E 2 для створення зображень та інструмент автоматичного кодування GitHub Copilot. Після цього цей набір став класичним патерном хмарових послуг та штучного інтелекту, і швидко став стандартом у галузі; другий, хоч і є стартапом, в основному користується власними центрами обробки даних, схоже на Google, і не покладається на постачальників хмарних обчислень третіх сторін. SiliconStar виявив, що на DeepSeek немає жодного рівня співпраці з виробниками чіпів хмарних фабрик (навіть якщо відомості публікуються під час китайського Нового року, що компанії хмарних фабрик почали запускати модель DeepSeek на своїх платформах, вони не розпочали жодної дійсної співпраці).
Крім того, DeepSeek зіткнувся з безпрецедентним зростанням користувачів, що означає, що час підготовки до відповіді на стимулюючі ситуації в нього менше, ніж у ChatGPT.
Висока продуктивність DeepSeek походить від загальної оптимізації на апаратному та системному рівнях. Мати DeepSeek, квантова компанія, вже в 2019 році витратила 2 мільярди на створення кластера суперкомп'ютерів Firefly One, який до 22 року тихо зберігатиме тисячі карт A100, щоб забезпечити більш ефективне паралельне навчання, DeepSeek самостійно розробив каркасну систему навчання HAI LLM. Зауважується, що кластер Firefly може використовувати від кількох тисяч до декількох десятків тисяч високопродуктивних GPU (таких як NVIDIA A100/H100 або вітчизняні чіпи), щоб забезпечити потужність паралельних обчислень. На даний момент кластер Firefly підтримує навчання моделей DeepSeek-R1, DeepSeek-MoE та інших, які проявляють результати, що близькі до рівня GPT-4 в математиці, кодуванні та інших складних завданнях.
Комплекс Firefly представляє собою дослідницький шлях DeepSeek в новій архітектурі та методиках, що дозволяє зовнішньому світу вважати, що за допомогою таких інноваційних технологій DS знизив вартість навчання, може здійснити навчання з використанням лише частини потужності найсучаснішої моделі західної моделі, що дорівнює R1, яка має таку ж продуктивність, як і модель штучного інтелекту верхнього рівня. SemiAnalysis вказує, що у DeepSeek фактично є великий запас обчислювальної потужності: DeepSeek зібрав усього 60 000 карт NVIDIA GPU, включаючи 10 000 карт A100, 10 000 карт H100, 10 000 карт "спеціальної версії" H800 та 30 000 карт "спеціальної версії" H20.
Це, здається, означає, що картковий обсяг R1 досить великий. Але фактично, R1 як модель роздумів, порівнюється з O3 від OpenAI, і ці моделі роздумів потребують більше обчислювальної потужності для відповідей, але DS зберігає обчислювальну потужність в частині тренування вартості, але відповідно до збільшення обчислювальної потужності у частині роздумів, яка з них вища, а яка нижча, наразі не зовсім зрозуміло.
Варто зазначити, що DeepSeek-V3 та DeepSeek-R1 - це обидва великі мовні моделі, але вони працюють по-різному. DeepSeek-V3 - це модель команд, схожа на ChatGPT, яка отримує підказки та генерує відповідний текст для відповіді. Але DeepSeek-R1 - це модель мислення, коли користувач питає R1, він спочатку проводить велику кількість мислительних процесів, а потім генерує остаточну відповідь. У токені, що генерується R1, спочатку з'являється велика кількість ланок мислення, модель пояснює питання, розкладає його на складові, всі ці мислительні процеси швидко генеруються у вигляді токенів перед генерацією відповіді.
За словами віце-президента Яоту Капіталу Вена Тінг-цана, велика потужність DeepSeek на етапі навчання означає, що команді потужності на етапі навчання можна планувати, передбачати, що не виникає недостатньо потужності, але потужність мислення невизначеність велика, оскільки вона в основному залежить від масштабу користувачів та обсягу використання, відносно гнучка, "потужність мислення буде зростати за певним законом, але з DeepSeek стає явищем великого масштабу, користувачів і обсягу використання вибухово зростає в короткий проміжок часу, це призводить до вибухового зростання потреб потужності мислення на етапі мислення, тому виникає затримка."
Він вважає, що DS, як найбільш завантажуваний мобільний додаток на 140 ринках по всьому світу, не може вмістити поточну картку, незважаючи ні на що, навіть з новою карткою, тому що «потрібен час, щоб нова карта потрапила в хмару».
«Вартість запуску таких чіпів, як Nvidia A100 і H100, протягом години має справедливу ринкову ціну, а DeepSeek більш ніж на 90% дешевший за аналогічну модель o1 від OpenAI з точки зору вартості виведення вихідного токена, яка мало чим відрізняється від усіх розрахунків, тому сама архітектура моделі MOE не є головною проблемою, але кількість графічних процесорів, що належать DS, визначає максимальну кількість токенів, які вони можуть виробляти за хвилину, навіть якщо більше графічних процесорів може бути використано для користувачів сервісу логічного висновку, І не для передтренувального навчання, а стеля є. Чень Юньфей, розробник нативного ШІ-додатку Kitten Fill Light, дотримується схожої думки.
Також представники галузі зазначають Галактичній компанії, що сутність зависоких DeepSeek полягає в тому, що приватний хмарний сервіс не було належним чином налаштований.
Кібератаки становлять ще один чинник, який спричинює затримки R1. 30 січня засоби масової інформації дізналися від компанії з кібербезпеки Qihoo 360, що інтенсивність атак на онлайн сервіс DeepSeek раптово зросла, атаки збільшилися в сотні разів порівняно з 28 січня. Лабораторія Xlab компанії Qihoo 360 помітила принаймні дві бот-мережі, які брали участь у нападі.
Проте це запізнення в обслуговуванні самого R1 має досить очевидний рішення - послуги від сторонніх постачальників. Це також найбільш жвавий вид зображення, який ми спостерігали під час святкування весняного свята - всі виробники поспішали надати послуги, задовольняючи потреби людей у DeepSeek.
31 січня компанія NVIDIA оголосила, що NVIDIA NIM тепер може бути використаний у DeepSeek-R1, після того як раніше компанія постраждала від DeepSeek, втративши приблизно 600 мільярдів доларів США за одну ніч. Того ж дня користувачі хмарного сервісу AWS від Amazon можуть використовувати останню базову модель R1 DeepSeek на їхніх платформах штучного інтелекту Amazon Bedrock і Amazon SageMaker AI. Пізніше нові гравці на ринку штучного інтелекту, такі як Perplexity та Cursor, також масово підключаються до DeepSeek. Microsoft випередила Amazon та NVIDIA, першою впровадивши DeepSeek-R1 на хмарові сервіси Azure та Github.
З 1 лютого починаючи з четвертого дня нового року від Huawei Cloud, Alibaba Cloud, дочірніх підприємств Fire Engine і Tencent Cloud також долучилися до них, зазвичай вони надають послуги розгортання повного розміру моделі DeepSeek. Після цього є виробники AI-чіпів, такі як Biren Technology, Hanbo Semiconductor, Ascend, Muxi та інші, які вони стверджують, що адаптували оригінальну версію або менші версії виробництва DeepSeek. Щодо компаній-розробників програмного забезпечення, Yonyou, Kingdee та інші інтегрують модель DeepSeek у деякі продукти для посилення їх продуктивності, нарешті, виробники обладнання, такі як Lenovo, Huawei, Honor та деякі продукти під брендом, включаючи модель DeepSeek, використовуються як особисті помічники на кінцевих пристроях та в автомобільних інтелектуальних кабінах.
Досі DeepSeek завдяки своїй вартості привернув широке коло друзів, включаючи хмарних постачальників, операторів, брокерів і національні платформи для інтернету національного суперкомп'ютера як в країні, так і за її межами. Оскільки DeepSeek-R1 є повністю відкритою моделлю, сервіс провайдери, які підключаються, стають одержувачами переваг моделі DS. З одного боку це значно підвищує обсяг DS, але водночас призводить до частіших затримок, сервіс-провайдери та сам DS поступово опиняються під тиском від припливу користувачів, і не можуть знайти ключ до вирішення проблем стабільного використання.
З урахуванням того, що оригінальні версії моделей DeepSeek V3 та R1 мають 671 мільярд параметрів, вони підходять для роботи в хмарі, оскільки хмарні постачальники мають більш потужні обчислювальні та мовні здатності. Вони запускають послуги розгортання, пов'язані з DeepSeek, для зниження порогу використання підприємством. Після розгортання моделі DeepSeek вони надають зовнішній API моделі DS, яке, на відміну від API DS, вважається більш зручним у використанні, ніж офіційний API DS.
Проте на практиці проблеми використання моделі DeepSeek-R1 не були вирішені жодними постачальниками послуг, зовнішній світ вважає, що у постачальників послуг немає недоліків, але насправді кількість карт, які вони розгортають, і повідомлення розробників про нестабільний досвід реакції повністю відповідають R1, це більше пов'язано з тим, що кількість карт, які можна призначити для міркувань R1, не дуже велика.
«R1 популярність залишається на високому рівні, постачальникам послуг потрібно враховувати інші моделі, які можна підключити, можливості надання карток для R1 обмежені, R1 популярність висока, якщо хтось з дому використовує R1, і віддає його за відносно низьку ціну, то його може зруйнувати.» Про це пояснив дизайнер моделей продуктів, незалежний розробник Гуі Цанґ силіконовим інопланетянам.
Оптимізація розгортання моделі - це широке поле, що охоплює багато аспектів, від завершення навчання до фактичного розгортання апаратного забезпечення, що включає багатошарову роботу, але для подій каратання DeepSeek причини можуть бути простішими, наприклад, занадто великою моделлю та недостатньою оптимізацією перед запуском.
Перед тим як запустити популярну велику модель, доведеться вирішити ряд технічних, інженерних, бізнесових та інших викликів, таких як узгодженість даних для навчання та виробничого середовища, вплив затримки даних та реального часу на ефективність виводу моделі, надмірна ефективність та зайнятість ресурсів для виведення моделі в мережі, недостатність універсальності моделі та інженерні аспекти, такі як стійкість служб, інтеграція API та систем та інші аспекти.
Багато популярних великих моделей надзвичайно серйозно ставляться до оптимізації розуміння перед введенням у експлуатацію, це через обчислювальний час та проблеми з пам'яттю. Перше - це затримка в розумінні занадто довга, що призводить до поганого користувацького досвіду, навіть не відповідає вимогам затримки, тобто тупіння та інші явища, останнє - це багато параметрів моделі, що вимагає велику кількість пам'яті, навіть одна карта GPU не вміщує, що також може призвести до тупіння.
Вентінг Цан пояснив причину силіконовій людині, він сказав, що постачальнику послуг довелося стикнутися з викликами у наданні послуг R1 через особливу структуру DS-моделі та великий розмір моделі + архітектуру MOE (експертно-змішану структуру, один з способів ефективного обчислення), «(постачальнику послуг) потрібен час для оптимізації, але на ринку є вікно часу, тому всі вони перш ніж оптимізувати, а не виходити на лінію після повної оптимізації.
Для стабільної роботи R1 важливо мати можливість резонування та оптимізації. DeepSeek повинен знайти спосіб зниження вартості резонансу та кількості виведених токенів за один раз.
Тим часом, затримка також вказує на те, що в ІД може і не бути такого великого запасу обчислювальної потужності, як говорить SemiAnalysis, фонд Фан Фан компанії має використовувати карту, команда DeepSeek також повинна використовувати карту, і карт, які можуть бути видані користувачам, завжди не вистачало. За поточною ситуацією короткостроково DeepSeek, можливо, не матиме мотивації витрачати гроші на оренду послуг, а потім надавати користувачам кращий досвід безкоштовно, вони, ймовірно, зачекають, поки не буде чітко вироблений перший хвильовий комерційний модель для C-кінцевих користувачів, і тільки тоді розглядатимуть питання оренди послуг, що також означає, що затримка буде тривати досить довго.
«Ймовірно, їм потрібно зробити два кроки: 1) впровадити платну модель, обмежити обсяг безкоштовного використання для користувачів; 2) укласти угоду з постачальником хмарних послуг і використовувати ресурси GPU інших людей.» Розробник Чен Юнфей запропонував тимчасове рішення, яке має велику підтримку у галузі.
Проте наразі DeepSeek не поспішає з цією проблемою «сервер перевантажений». Як компанія, що полює на AGI, DeepSeek, схоже, не бажає занадто уваги на цей шалений потік користувачів. Можливо, користувачам все ще доведеться звикнути до інтерфейсу «сервер перевантажений» у майбутньому.