Источник изображения: создано с помощью небывалого искусственного интеллекта
Пользователи со всего мира беспокоятся из-за постоянного сообщения 'сервер занят, попробуйте позже', которое постоянно появляется в DeepSeek.
Ранее малоизвестный DeepSeek, благодаря выпуску языковой модели V3, анонсированной 26 декабря 2024 года в качестве конкурента GPT 4o, внезапно стал известен широкой публике. 20 января DeepSeek выпустил языковую модель R1, конкурирующую с OpenAI o1. После этого компания и ее приложение окончательно стали популярными из-за высокого качества ответов, генерируемых в режиме «глубокого размышления», а также позитивных сигналов о возможном резком снижении затрат на начальную стадию обучения модели. Впоследствии DeepSeek R1 стал сталкиваться с перегрузкой: его функция онлайн-поиска периодически парализована, а в режиме «глубокого размышления» часто появляется сообщение «сервер занят», что приводит к большим неудобствам для многих пользователей.
Несколько дней назад DeepSeek начал испытывать проблемы с сервером. 27 января днем официальный сайт DeepSeek несколько раз показывал сообщение «страница/api DeepSeek недоступна». В тот же день DeepSeek стал самым загружаемым приложением в выходные дни в магазине приложений для iPhone, обогнав ChatGPT в американском регионе.
5 февраля DeepSeek мобильной версии онлайн 26 дней, ежедневная активность пользователей превысила 40 миллионов, ChatGPT мобильной версии - 54,95 миллионов, что составляет 74,3% от DeepSeek. Практически в то же время, когда DeepSeek выходит на крутой рост, начинают появляться жалобы на загруженность серверов, пользователи по всему миру начинают сталкиваться с неудобством, когда задают несколько вопросов, и сервис выходит из строя. Появляются различные альтернативные сайты доступа, такие как замена DeepSeek, различные облачные сервисы, производители микросхем и инфраструктурные компании, а также инструкции по персональной установке повсюду. Однако это не успокаивает людей: практически все важные компании по всему миру заявляют, что поддерживают установку DeepSeek, но пользователи по-прежнему жалуются на нестабильность сервиса.
Что произошло на самом деле?
1、Люди, привыкшие к ChatGPT, не могут выдержать DeepSeek, который не открывается
Недовольство людей "DeepSeek сервер занят" происходит из того, что ранее основные приложения ИИ, такие как ChatGPT, редко заедали.
С момента запуска сервиса OpenAI, хотя ChatGPT пережил несколько аварийного уровня P0 (самого серьезного уровня аварии), в целом он относительно надежен и уже нашел баланс между инновациями и стабильностью, постепенно став ключевой составляющей, подобной традиционным облачным услугам.
Частота крупных сбоев ChatGPT не слишком высока
Процесс рассуждения ChatGPT относительно стабилен и включает в себя два этапа: кодирование и декодирование. На этапе кодирования входной текст преобразуется в вектор, включающий семантическую информацию входного текста. На этапе декодирования ChatGPT использует ранее сгенерированный текст в качестве контекста и с помощью модели Transformer генерирует следующее слово или фразу до тех пор, пока не будет сгенерировано полное предложение, отвечающее требованиям. Большая модель сама по себе относится к архитектуре декодера, декодирование - это процесс поэтапного вывода токенов (минимальная единица обработки текста большой моделью) при обработке текста ChatGPT. При каждом запросе к ChatGPT запускается процесс рассуждения.
Например, если задать ChatGPT вопрос "как ты сегодня себя чувствуешь", ChatGPT закодирует это предложение, сгенерирует представление внимания для каждого слоя, на основе представлений внимания для всех предыдущих токенов, предскажет первый выводной токен "я", затем начнет декодирование, добавит "я" к "как ты сегодня себя чувствуешь?", получит "как ты сегодня себя чувствуешь? Я", получит новое представление внимания, затем предскажет следующий токен: "хорошо", и так далее, повторяя первый и второй шаги, и в конечном итоге получит "как ты сегодня себя чувствуешь? Мое настроение отличное."
Инструментом для управления контейнерами Kubernetes является "командующий за кулисами" ChatGPT, который отвечает за планирование и распределение ресурсов сервера. Когда нагрузка от пользователей полностью выходит за пределы способности контрольной плоскости Kubernetes, это приводит к полному параличу системы ChatGPT.
Количество общих случаев паралича ChatGPT не слишком велико, но за этим стоит мощный ресурс, на котором он основан, чтобы обеспечить стабильную работу, стоящий за этим мощный вычислительный ресурс, это то, что люди часто пренебрегают.
Как правило, из-за относительно небольшого масштаба данных, обрабатываемых в процессе рассуждения, требования к вычислительной мощности не так высоки, как при обучении. Специалисты отрасли оценивают, что в процессе нормального вывода на больших моделях основная часть памяти GPU занимается весами модели, примерно 80% и более. Фактическая ситуация такова, что во встроенных в ChatGPT нескольких моделях размеры моделей по умолчанию меньше, чем у DeepSeek-R1 в 671B, плюс у ChatGPT гораздо больше вычислительной мощности GPU, что естественно приводит к более стабильной производительности по сравнению с DS-R1.
DeepSeek-V3 и R1 - это модели 671B, процесс запуска модели - это процесс рассуждения, резерв мощности для рассуждения должен соответствовать количеству пользователей, например, если есть 1 миллиард пользователей, то требуется 1 миллиард видеокарт, которые не только огромны, но и независимы от резерва мощности во время обучения и не связаны с ним. Со всех сторон видно, что видеокарты и резерв мощности DS явно недостаточны, поэтому возникают частые задержки.
Это сравнение делает пользователей, привыкших к шелковистому опыту ChatGPT, недовольными, особенно в настоящее время, когда интерес к R1 растет.
2、Карта, карта или карта
Кроме того, если сравнивать внимательно, ситуации, с которыми столкнулись OpenAI и DeepSeek, очень разные.
Первый имеет поддержку Microsoft в качестве единственной платформы OpenAI. Облачные службы Microsoft Azure внедряют ChatGPT, генератор изображений Dalle-E 2 и инструмент автоматического кодирования GitHub Copilot. После этого эта комбинация стала классическим образцом облачных вычислений и искусственного интеллекта, а затем быстро стала отраслевым стандартом. Второй, хотя и является стартапом, в большинстве случаев полагается на собственные центры данных, подобно Google, а не на поставщиков облачных вычислений сторонних компаний. Проведя открытое исследование, представители Silicon Star обнаружили, что DeepSeek не сотрудничает ни с одним облачным или чиповым производителем на любом уровне (хотя в период китайского Нового года облачные компании поспешили объявить, что модели DeepSeek работают на их платформах, но на самом деле они не начали никакого реального сотрудничества).
Кроме того, DeepSeek столкнулся с беспрецедентным ростом числа пользователей, что означает, что у него меньше времени на подготовку к ситуации страсти, чем у ChatGPT.
Хорошая производительность DeepSeek обеспечивается общей оптимизацией на аппаратном и системном уровнях. Материнская компания DeepSeek, Quantitative Magic, еще в 2019 году потратила 2 миллиарда на создание кластера суперкомпьютеров Firefly I, а к 22 году тихо хранила десятки тысяч видеокарт A100, чтобы обеспечить более эффективное параллельное обучение, DeepSeek самостоятельно разработала фреймворк обучения HAI LLM. В индустрии считается, что кластер Firefly может использовать несколько тысяч или десятков тысяч высокопроизводительных графических процессоров (таких как NVIDIA A100 / H100 или отечественные чипы), чтобы обеспечить мощность параллельных вычислений. В настоящее время кластер Firefly поддерживает тренировки моделей, таких как DeepSeek-R1, DeepSeek-MoE, эти модели проявляют уровень близкий к GPT-4 в математических, кодовых и других сложных задачах.
Кластер Firefly представляет собой исследование DeepSeek новых архитектур и методов, а также заставляет внешний мир поверить в то, что благодаря таким инновационным технологиям DS может снизить стоимость обучения и может обучать R1 с производительностью лучших моделей ИИ с помощью вычислительной мощности в разы меньшей, чем самые передовые западные модели. По подсчетам SemiAnalysis, DeepSeek на самом деле обладает огромным запасом вычислительной мощности: DeepSeek имеет в общей сложности 60 000 графических карт NVIDIA, в том числе 10 000 A100, 10 000 H100, 10 000 «special edition» H800 и 30 000 «special edition» H20.
Это, кажется, означает, что у R1 есть достаточно мощность. Но на самом деле, R1, как модель рассуждения, сравнивается с O3 от OpenAI, такие модели рассуждения требуют больше вычислительной мощности для ответов, но неясно, что в данный момент выше, экономия вычислительной мощности на стороне обучения DS или резкое увеличение вычислительной мощности на стороне рассуждения.
Столгославно, DeepSeek-V3 и DeepSeek-R1 оба являются большими языковыми моделями, но их работа различается. DeepSeek-V3 - это модель команд, аналогичная ChatGPT, принимает подсказки и генерирует соответствующий текст для ответа. Но DeepSeek-R1 - это модель рассуждения, когда пользователь задает вопрос R1, сначала происходит большое количество рассуждений, а затем генерируется окончательный ответ. В токене, сгенерированном R1, сначала появляется множество процессов мышления, модель сначала разъясняет вопрос, разбирает вопрос, все эти процессы рассуждения быстро генерируются в форме токена перед генерацией ответа.
Взгляд заместителя генерального директора Youtoo Capital Wen Tingcan заключается в том, что огромные резервы вычислительной мощности DeepSeek, упомянутые выше, относятся к этапу обучения. Команда вычислительной мощности на этапе обучения может быть спланирована, предсказуема и не склонна к дефициту мощности, но вычислительная мощность вывода нестабильна в большей степени, поскольку она в основном зависит от масштаба пользователей и объема использования, что обеспечивает большую гибкость. «Мощность вывода будет увеличиваться согласно определенным закономерностям, но с появлением DeepSeek в качестве продукта феноменального уровня, в короткое время масштаб пользователей и объем использования взрывно возрастут, что приведет к взрывному росту потребности в вычислительной мощности на этапе вывода, что приводит к задержкам.
Немедленно активизируйте модель продуктового дизайнера, независимый разработчик признает, что основной причиной задержки карты DeepSeek является объем карты, и он считает, что DS, как приложение с самым высоким объемом загрузок в 140 рынках по всему миру, теперь не может выдержать никаких карт, даже если использовать новые карты, потому что "новая карта в облаке требует времени".
«Стоимость работы чипов, таких как NVIDIA A100 и H100, в течение часа имеет справедливую рыночную цену. С точки зрения стоимости вывода токенов DeepSeek на 90% и более дешевле, чем у аналогичных моделей OpenAI o1, это не сильно отличается от нашего расчета. Поэтому архитектура модели MOE сама по себе не является главной проблемой, но количество GPU, которое есть у DS, определяет максимальное количество токенов, которое они могут производить и предоставлять в минуту. Даже если больше GPU можно использовать для обслуживания пользователей, а не для предварительного обучения исследований, но есть ограничение». Разработчик приложения AI-native Xiaomigou Light, Чен Юнфей, разделяет аналогичное мнение.
Также представители отрасли сказали Silicium, что задержки DeepSeek в основе заключаются в том, что частные облака не сделаны хорошо.
Кибератака является еще одним фактором замедления R1. 30 января СМИ узнали от компании по кибербезопасности Qihoo 360, что интенсивность атак на онлайн-сервис DeepSeek внезапно выросла, их команды увеличились в сотни раз по сравнению с 28 января. Лаборатория Xlab Qihoo 360 обнаружила, что в атаке участвуют как минимум 2 ботсети.
Но у этой R1 самообслуживающейся задержки существует очевидное решение — услуги сторонних поставщиков. Это также самое оживленное зрелище, которое мы видели во время праздника весны — различные производители активно развертывают услуги, удовлетворяя потребности людей в DeepSeek.
31 января NVIDIA объявила, что NVIDIA NIM теперь может использовать DeepSeek-R1. Ранее из-за DeepSeek NVIDIA потеряла почти 6 триллионов долларов рыночной стоимости за одну ночь. В этот же день пользователи облачного сервиса AWS Amazon могут развернуть последнюю базовую модель R1 DeepSeek в своих платформах искусственного интеллекта Amazon Bedrock и Amazon SageMaker AI. Затем новые приложения искусственного интеллекта, такие как Perplexity и Cursor, также массово подключились к DeepSeek. Майкрософт опередил Amazon и NVIDIA, первым развернув DeepSeek-R1 на облачных сервисах Azure и Github.
С 1 февраля, с четверга, начали участвовать Huawei Cloud, Alibaba Cloud, огонь под знаменем Вулкан от ByteDance и Tencent Cloud, обычно предоставляя услуги развертывания DeepSeek полной серии и полного размера. После этого следуют производители микросхем искусственного интеллекта, такие как Bitmain Technologies, Hanbo Semiconductor, Ascend и Muxi, которые утверждают, что они адаптировали оригинальную версию DeepSeek или более небольшие усеченные версии. Что касается программного обеспечения, например, UFIDA и Kingdee внедряют модель DeepSeek в некоторые продукты для увеличения их мощности, и, наконец, производители конечных устройств, такие как Lenovo, Huawei и некоторые продукты из семейства Honor, внедряют модель DeepSeek для использования в качестве персонального ассистента на стороне устройства и в автомобильных интеллектуальных кабинах.
До сих пор DeepSeek привлекает широкий круг друзей благодаря своей собственной ценности, включая облачных провайдеров, операторов, брокеров и национальные платформы суперкомпьютеров. Поскольку DeepSeek-R1 является полностью открытой моделью, поставщики услуг, подключенные к ней, стали бенефициарами модели DS. С одной стороны это значительно повысило голос DS, но также привело к более частым задержкам, поскольку поставщики услуг и сам DS все больше столкнулись с проблемой стабильного использования в условиях внезапного наплыва пользователей, не находя ключевого средства решения проблемы.
Учитывая, что у оригинальных моделей DeepSeek V3 и R1 есть целых 6710 миллиардов параметров, они идеально подходят для работы в облаке. Облачные поставщики имеют более чем достаточную вычислительную мощность и способность к рассуждениям. Они запускают службы развертывания, связанные с DeepSeek, чтобы снизить порог использования предприятиями. Развернув модель DeepSeek, они предоставляют API модели DS для внешнего использования. По сравнению с API, предоставленным самим DS, это считается способом обеспечить лучший опыт использования, чем официальный DS.
Однако на практике проблемы с опытом работы модели DeepSeek-R1 не были решены ни в одном из сервисов. Сторонники считают, что у поставщиков услуг нет недостатка в картах, но на самом деле количество карт, выделенных для выполнения расследования R1, невелико, что приводит к нестабильному отклику разработчиков, который полностью соответствует R1.
«R1-температура остается на высоком уровне, поставщики услуг должны учитывать другие модели, которые подключаются, карта, которую можно предоставить R1, очень ограничена, а уровень R1 высок, когда кто-то начинает использовать R1, предоставляя его по относительно низкой цене, это приведет к его разрушению». Модельный дизайнер и независимый разработчик Guicang объяснил причину существования силиконовых звездолетов.
Оптимизация развертывания моделей - это обширная область, охватывающая множество аспектов, начиная с завершения обучения и заканчивая фактическим развертыванием на оборудовании, включая работу на различных уровнях. Однако для событий торможения в DeepSeek причины могут быть гораздо проще, например, слишком крупные модели и недостаточная оптимизация перед запуском.
Перед запуском популярной крупной модели возникает множество технических, инженерных, бизнес- и других вызовов, таких как однородность тренировочных данных и данных производственной среды, влияние задержки данных на реальность на результаты вывода модели, высокая эффективность и ресурсоемкость онлайн вывода, недостаточная обобщающая способность модели, а также инженерные аспекты, такие как стабильность сервиса, интеграция API и системы и т. д.
Перед запуском многих популярных больших моделей особое внимание уделяется оптимизации вывода, потому что это связано с затратами вычислительного времени и проблемами памяти. Первое относится к слишком долгому выводу, что приводит к плохому пользовательскому опыту, даже не удовлетворяя требования к задержке, то есть возникают тормоза и другие явления. Второе относится к большому количеству параметров модели, которые занимают много памяти, даже так много, что одна видеокарта не справляется, что также приводит к тормозам.
Вэнь Тингцан объяснил силиконовым людям причину, он сказал, что поставщики услуг столкнулись с вызовом в предоставлении услуг R1 из-за специфической структуры DS-модели, слишком большой модели и архитектуры MOE (смешанная экспертная структура, способ эффективного вычисления), 'Оптимизация (поставщиков услуг) требует времени, но рыночная активность имеет временное окно, поэтому все это происходит сначала, а затем оптимизируется, а не полностью оптимизировано перед выпуском.'
Для стабильной работы R1 сегодня необходима способность к резервированию и оптимизации на стороне рассуждений. DeepSeek должен найти способ снизить стоимость рассуждений и уменьшить количество токенов на выходе за один раз.
В то же время заикание также указывает на то, что сама вычислительная мощность DS, скорее всего, не настолько велика, как утверждает SemiAnalysis, компания Phantom Fund должна использовать карту, команда DeepSeek также должна использовать карту, и карт, которые могут быть предоставлены пользователям, всегда немного. Судя по текущей ситуации, в ближайшее время DeepSeek, возможно, не будет иметь мотивации тратить деньги на аренду услуг, а затем предоставлять пользователям бесплатный и лучший опыт, скорее всего, они ждут, пока первая волна коммерческой модели C-конечного пользователя будет ясно структурирована, прежде чем рассматривать вопрос аренды услуг, что также означает, что заикание будет продолжаться еще некоторое время.
«Им, вероятно, нужно два шага: 1) внедрить платную модель, ограничивающую объем использования модели бесплатных пользователей; 2) сотрудничать с облачными сервисами, используя ресурсы GPU других людей». Временное решение, предложенное разработчиком Чэнь Юньфэем, получило широкое одобрение в индустрии.
Но на данный момент DeepSeek не кажется слишком беспокоиться о проблеме "сервер перегружен". Как компания, стремящаяся к AGI, DeepSeek, кажется, не хочет слишком сосредотачиваться на этом потоке пользователей, который приходит. Возможно, пользователям придется привыкнуть к интерфейсу "сервер перегружен" в ближайшее время.
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
Что происходит за «занятыми серверами» DeepSeek, которые сводят всех с ума?
Источник изображения: создано с помощью небывалого искусственного интеллекта
Пользователи со всего мира беспокоятся из-за постоянного сообщения 'сервер занят, попробуйте позже', которое постоянно появляется в DeepSeek.
Ранее малоизвестный DeepSeek, благодаря выпуску языковой модели V3, анонсированной 26 декабря 2024 года в качестве конкурента GPT 4o, внезапно стал известен широкой публике. 20 января DeepSeek выпустил языковую модель R1, конкурирующую с OpenAI o1. После этого компания и ее приложение окончательно стали популярными из-за высокого качества ответов, генерируемых в режиме «глубокого размышления», а также позитивных сигналов о возможном резком снижении затрат на начальную стадию обучения модели. Впоследствии DeepSeek R1 стал сталкиваться с перегрузкой: его функция онлайн-поиска периодически парализована, а в режиме «глубокого размышления» часто появляется сообщение «сервер занят», что приводит к большим неудобствам для многих пользователей.
Несколько дней назад DeepSeek начал испытывать проблемы с сервером. 27 января днем официальный сайт DeepSeek несколько раз показывал сообщение «страница/api DeepSeek недоступна». В тот же день DeepSeek стал самым загружаемым приложением в выходные дни в магазине приложений для iPhone, обогнав ChatGPT в американском регионе.
5 февраля DeepSeek мобильной версии онлайн 26 дней, ежедневная активность пользователей превысила 40 миллионов, ChatGPT мобильной версии - 54,95 миллионов, что составляет 74,3% от DeepSeek. Практически в то же время, когда DeepSeek выходит на крутой рост, начинают появляться жалобы на загруженность серверов, пользователи по всему миру начинают сталкиваться с неудобством, когда задают несколько вопросов, и сервис выходит из строя. Появляются различные альтернативные сайты доступа, такие как замена DeepSeek, различные облачные сервисы, производители микросхем и инфраструктурные компании, а также инструкции по персональной установке повсюду. Однако это не успокаивает людей: практически все важные компании по всему миру заявляют, что поддерживают установку DeepSeek, но пользователи по-прежнему жалуются на нестабильность сервиса.
Что произошло на самом деле?
1、Люди, привыкшие к ChatGPT, не могут выдержать DeepSeek, который не открывается
Недовольство людей "DeepSeek сервер занят" происходит из того, что ранее основные приложения ИИ, такие как ChatGPT, редко заедали.
С момента запуска сервиса OpenAI, хотя ChatGPT пережил несколько аварийного уровня P0 (самого серьезного уровня аварии), в целом он относительно надежен и уже нашел баланс между инновациями и стабильностью, постепенно став ключевой составляющей, подобной традиционным облачным услугам.
Частота крупных сбоев ChatGPT не слишком высока
Процесс рассуждения ChatGPT относительно стабилен и включает в себя два этапа: кодирование и декодирование. На этапе кодирования входной текст преобразуется в вектор, включающий семантическую информацию входного текста. На этапе декодирования ChatGPT использует ранее сгенерированный текст в качестве контекста и с помощью модели Transformer генерирует следующее слово или фразу до тех пор, пока не будет сгенерировано полное предложение, отвечающее требованиям. Большая модель сама по себе относится к архитектуре декодера, декодирование - это процесс поэтапного вывода токенов (минимальная единица обработки текста большой моделью) при обработке текста ChatGPT. При каждом запросе к ChatGPT запускается процесс рассуждения.
Например, если задать ChatGPT вопрос "как ты сегодня себя чувствуешь", ChatGPT закодирует это предложение, сгенерирует представление внимания для каждого слоя, на основе представлений внимания для всех предыдущих токенов, предскажет первый выводной токен "я", затем начнет декодирование, добавит "я" к "как ты сегодня себя чувствуешь?", получит "как ты сегодня себя чувствуешь? Я", получит новое представление внимания, затем предскажет следующий токен: "хорошо", и так далее, повторяя первый и второй шаги, и в конечном итоге получит "как ты сегодня себя чувствуешь? Мое настроение отличное."
Инструментом для управления контейнерами Kubernetes является "командующий за кулисами" ChatGPT, который отвечает за планирование и распределение ресурсов сервера. Когда нагрузка от пользователей полностью выходит за пределы способности контрольной плоскости Kubernetes, это приводит к полному параличу системы ChatGPT.
Количество общих случаев паралича ChatGPT не слишком велико, но за этим стоит мощный ресурс, на котором он основан, чтобы обеспечить стабильную работу, стоящий за этим мощный вычислительный ресурс, это то, что люди часто пренебрегают.
Как правило, из-за относительно небольшого масштаба данных, обрабатываемых в процессе рассуждения, требования к вычислительной мощности не так высоки, как при обучении. Специалисты отрасли оценивают, что в процессе нормального вывода на больших моделях основная часть памяти GPU занимается весами модели, примерно 80% и более. Фактическая ситуация такова, что во встроенных в ChatGPT нескольких моделях размеры моделей по умолчанию меньше, чем у DeepSeek-R1 в 671B, плюс у ChatGPT гораздо больше вычислительной мощности GPU, что естественно приводит к более стабильной производительности по сравнению с DS-R1.
DeepSeek-V3 и R1 - это модели 671B, процесс запуска модели - это процесс рассуждения, резерв мощности для рассуждения должен соответствовать количеству пользователей, например, если есть 1 миллиард пользователей, то требуется 1 миллиард видеокарт, которые не только огромны, но и независимы от резерва мощности во время обучения и не связаны с ним. Со всех сторон видно, что видеокарты и резерв мощности DS явно недостаточны, поэтому возникают частые задержки.
Это сравнение делает пользователей, привыкших к шелковистому опыту ChatGPT, недовольными, особенно в настоящее время, когда интерес к R1 растет.
2、Карта, карта или карта
Кроме того, если сравнивать внимательно, ситуации, с которыми столкнулись OpenAI и DeepSeek, очень разные.
Первый имеет поддержку Microsoft в качестве единственной платформы OpenAI. Облачные службы Microsoft Azure внедряют ChatGPT, генератор изображений Dalle-E 2 и инструмент автоматического кодирования GitHub Copilot. После этого эта комбинация стала классическим образцом облачных вычислений и искусственного интеллекта, а затем быстро стала отраслевым стандартом. Второй, хотя и является стартапом, в большинстве случаев полагается на собственные центры данных, подобно Google, а не на поставщиков облачных вычислений сторонних компаний. Проведя открытое исследование, представители Silicon Star обнаружили, что DeepSeek не сотрудничает ни с одним облачным или чиповым производителем на любом уровне (хотя в период китайского Нового года облачные компании поспешили объявить, что модели DeepSeek работают на их платформах, но на самом деле они не начали никакого реального сотрудничества).
Кроме того, DeepSeek столкнулся с беспрецедентным ростом числа пользователей, что означает, что у него меньше времени на подготовку к ситуации страсти, чем у ChatGPT.
Хорошая производительность DeepSeek обеспечивается общей оптимизацией на аппаратном и системном уровнях. Материнская компания DeepSeek, Quantitative Magic, еще в 2019 году потратила 2 миллиарда на создание кластера суперкомпьютеров Firefly I, а к 22 году тихо хранила десятки тысяч видеокарт A100, чтобы обеспечить более эффективное параллельное обучение, DeepSeek самостоятельно разработала фреймворк обучения HAI LLM. В индустрии считается, что кластер Firefly может использовать несколько тысяч или десятков тысяч высокопроизводительных графических процессоров (таких как NVIDIA A100 / H100 или отечественные чипы), чтобы обеспечить мощность параллельных вычислений. В настоящее время кластер Firefly поддерживает тренировки моделей, таких как DeepSeek-R1, DeepSeek-MoE, эти модели проявляют уровень близкий к GPT-4 в математических, кодовых и других сложных задачах.
Кластер Firefly представляет собой исследование DeepSeek новых архитектур и методов, а также заставляет внешний мир поверить в то, что благодаря таким инновационным технологиям DS может снизить стоимость обучения и может обучать R1 с производительностью лучших моделей ИИ с помощью вычислительной мощности в разы меньшей, чем самые передовые западные модели. По подсчетам SemiAnalysis, DeepSeek на самом деле обладает огромным запасом вычислительной мощности: DeepSeek имеет в общей сложности 60 000 графических карт NVIDIA, в том числе 10 000 A100, 10 000 H100, 10 000 «special edition» H800 и 30 000 «special edition» H20.
Это, кажется, означает, что у R1 есть достаточно мощность. Но на самом деле, R1, как модель рассуждения, сравнивается с O3 от OpenAI, такие модели рассуждения требуют больше вычислительной мощности для ответов, но неясно, что в данный момент выше, экономия вычислительной мощности на стороне обучения DS или резкое увеличение вычислительной мощности на стороне рассуждения.
Столгославно, DeepSeek-V3 и DeepSeek-R1 оба являются большими языковыми моделями, но их работа различается. DeepSeek-V3 - это модель команд, аналогичная ChatGPT, принимает подсказки и генерирует соответствующий текст для ответа. Но DeepSeek-R1 - это модель рассуждения, когда пользователь задает вопрос R1, сначала происходит большое количество рассуждений, а затем генерируется окончательный ответ. В токене, сгенерированном R1, сначала появляется множество процессов мышления, модель сначала разъясняет вопрос, разбирает вопрос, все эти процессы рассуждения быстро генерируются в форме токена перед генерацией ответа.
Взгляд заместителя генерального директора Youtoo Capital Wen Tingcan заключается в том, что огромные резервы вычислительной мощности DeepSeek, упомянутые выше, относятся к этапу обучения. Команда вычислительной мощности на этапе обучения может быть спланирована, предсказуема и не склонна к дефициту мощности, но вычислительная мощность вывода нестабильна в большей степени, поскольку она в основном зависит от масштаба пользователей и объема использования, что обеспечивает большую гибкость. «Мощность вывода будет увеличиваться согласно определенным закономерностям, но с появлением DeepSeek в качестве продукта феноменального уровня, в короткое время масштаб пользователей и объем использования взрывно возрастут, что приведет к взрывному росту потребности в вычислительной мощности на этапе вывода, что приводит к задержкам.
Немедленно активизируйте модель продуктового дизайнера, независимый разработчик признает, что основной причиной задержки карты DeepSeek является объем карты, и он считает, что DS, как приложение с самым высоким объемом загрузок в 140 рынках по всему миру, теперь не может выдержать никаких карт, даже если использовать новые карты, потому что "новая карта в облаке требует времени".
«Стоимость работы чипов, таких как NVIDIA A100 и H100, в течение часа имеет справедливую рыночную цену. С точки зрения стоимости вывода токенов DeepSeek на 90% и более дешевле, чем у аналогичных моделей OpenAI o1, это не сильно отличается от нашего расчета. Поэтому архитектура модели MOE сама по себе не является главной проблемой, но количество GPU, которое есть у DS, определяет максимальное количество токенов, которое они могут производить и предоставлять в минуту. Даже если больше GPU можно использовать для обслуживания пользователей, а не для предварительного обучения исследований, но есть ограничение». Разработчик приложения AI-native Xiaomigou Light, Чен Юнфей, разделяет аналогичное мнение.
Также представители отрасли сказали Silicium, что задержки DeepSeek в основе заключаются в том, что частные облака не сделаны хорошо.
Кибератака является еще одним фактором замедления R1. 30 января СМИ узнали от компании по кибербезопасности Qihoo 360, что интенсивность атак на онлайн-сервис DeepSeek внезапно выросла, их команды увеличились в сотни раз по сравнению с 28 января. Лаборатория Xlab Qihoo 360 обнаружила, что в атаке участвуют как минимум 2 ботсети.
Но у этой R1 самообслуживающейся задержки существует очевидное решение — услуги сторонних поставщиков. Это также самое оживленное зрелище, которое мы видели во время праздника весны — различные производители активно развертывают услуги, удовлетворяя потребности людей в DeepSeek.
31 января NVIDIA объявила, что NVIDIA NIM теперь может использовать DeepSeek-R1. Ранее из-за DeepSeek NVIDIA потеряла почти 6 триллионов долларов рыночной стоимости за одну ночь. В этот же день пользователи облачного сервиса AWS Amazon могут развернуть последнюю базовую модель R1 DeepSeek в своих платформах искусственного интеллекта Amazon Bedrock и Amazon SageMaker AI. Затем новые приложения искусственного интеллекта, такие как Perplexity и Cursor, также массово подключились к DeepSeek. Майкрософт опередил Amazon и NVIDIA, первым развернув DeepSeek-R1 на облачных сервисах Azure и Github.
С 1 февраля, с четверга, начали участвовать Huawei Cloud, Alibaba Cloud, огонь под знаменем Вулкан от ByteDance и Tencent Cloud, обычно предоставляя услуги развертывания DeepSeek полной серии и полного размера. После этого следуют производители микросхем искусственного интеллекта, такие как Bitmain Technologies, Hanbo Semiconductor, Ascend и Muxi, которые утверждают, что они адаптировали оригинальную версию DeepSeek или более небольшие усеченные версии. Что касается программного обеспечения, например, UFIDA и Kingdee внедряют модель DeepSeek в некоторые продукты для увеличения их мощности, и, наконец, производители конечных устройств, такие как Lenovo, Huawei и некоторые продукты из семейства Honor, внедряют модель DeepSeek для использования в качестве персонального ассистента на стороне устройства и в автомобильных интеллектуальных кабинах.
До сих пор DeepSeek привлекает широкий круг друзей благодаря своей собственной ценности, включая облачных провайдеров, операторов, брокеров и национальные платформы суперкомпьютеров. Поскольку DeepSeek-R1 является полностью открытой моделью, поставщики услуг, подключенные к ней, стали бенефициарами модели DS. С одной стороны это значительно повысило голос DS, но также привело к более частым задержкам, поскольку поставщики услуг и сам DS все больше столкнулись с проблемой стабильного использования в условиях внезапного наплыва пользователей, не находя ключевого средства решения проблемы.
Учитывая, что у оригинальных моделей DeepSeek V3 и R1 есть целых 6710 миллиардов параметров, они идеально подходят для работы в облаке. Облачные поставщики имеют более чем достаточную вычислительную мощность и способность к рассуждениям. Они запускают службы развертывания, связанные с DeepSeek, чтобы снизить порог использования предприятиями. Развернув модель DeepSeek, они предоставляют API модели DS для внешнего использования. По сравнению с API, предоставленным самим DS, это считается способом обеспечить лучший опыт использования, чем официальный DS.
Однако на практике проблемы с опытом работы модели DeepSeek-R1 не были решены ни в одном из сервисов. Сторонники считают, что у поставщиков услуг нет недостатка в картах, но на самом деле количество карт, выделенных для выполнения расследования R1, невелико, что приводит к нестабильному отклику разработчиков, который полностью соответствует R1.
«R1-температура остается на высоком уровне, поставщики услуг должны учитывать другие модели, которые подключаются, карта, которую можно предоставить R1, очень ограничена, а уровень R1 высок, когда кто-то начинает использовать R1, предоставляя его по относительно низкой цене, это приведет к его разрушению». Модельный дизайнер и независимый разработчик Guicang объяснил причину существования силиконовых звездолетов.
Оптимизация развертывания моделей - это обширная область, охватывающая множество аспектов, начиная с завершения обучения и заканчивая фактическим развертыванием на оборудовании, включая работу на различных уровнях. Однако для событий торможения в DeepSeek причины могут быть гораздо проще, например, слишком крупные модели и недостаточная оптимизация перед запуском.
Перед запуском популярной крупной модели возникает множество технических, инженерных, бизнес- и других вызовов, таких как однородность тренировочных данных и данных производственной среды, влияние задержки данных на реальность на результаты вывода модели, высокая эффективность и ресурсоемкость онлайн вывода, недостаточная обобщающая способность модели, а также инженерные аспекты, такие как стабильность сервиса, интеграция API и системы и т. д.
Перед запуском многих популярных больших моделей особое внимание уделяется оптимизации вывода, потому что это связано с затратами вычислительного времени и проблемами памяти. Первое относится к слишком долгому выводу, что приводит к плохому пользовательскому опыту, даже не удовлетворяя требования к задержке, то есть возникают тормоза и другие явления. Второе относится к большому количеству параметров модели, которые занимают много памяти, даже так много, что одна видеокарта не справляется, что также приводит к тормозам.
Вэнь Тингцан объяснил силиконовым людям причину, он сказал, что поставщики услуг столкнулись с вызовом в предоставлении услуг R1 из-за специфической структуры DS-модели, слишком большой модели и архитектуры MOE (смешанная экспертная структура, способ эффективного вычисления), 'Оптимизация (поставщиков услуг) требует времени, но рыночная активность имеет временное окно, поэтому все это происходит сначала, а затем оптимизируется, а не полностью оптимизировано перед выпуском.'
Для стабильной работы R1 сегодня необходима способность к резервированию и оптимизации на стороне рассуждений. DeepSeek должен найти способ снизить стоимость рассуждений и уменьшить количество токенов на выходе за один раз.
В то же время заикание также указывает на то, что сама вычислительная мощность DS, скорее всего, не настолько велика, как утверждает SemiAnalysis, компания Phantom Fund должна использовать карту, команда DeepSeek также должна использовать карту, и карт, которые могут быть предоставлены пользователям, всегда немного. Судя по текущей ситуации, в ближайшее время DeepSeek, возможно, не будет иметь мотивации тратить деньги на аренду услуг, а затем предоставлять пользователям бесплатный и лучший опыт, скорее всего, они ждут, пока первая волна коммерческой модели C-конечного пользователя будет ясно структурирована, прежде чем рассматривать вопрос аренды услуг, что также означает, что заикание будет продолжаться еще некоторое время.
«Им, вероятно, нужно два шага: 1) внедрить платную модель, ограничивающую объем использования модели бесплатных пользователей; 2) сотрудничать с облачными сервисами, используя ресурсы GPU других людей». Временное решение, предложенное разработчиком Чэнь Юньфэем, получило широкое одобрение в индустрии.
Но на данный момент DeepSeek не кажется слишком беспокоиться о проблеме "сервер перегружен". Как компания, стремящаяся к AGI, DeepSeek, кажется, не хочет слишком сосредотачиваться на этом потоке пользователей, который приходит. Возможно, пользователям придется привыкнуть к интерфейсу "сервер перегружен" в ближайшее время.