Ф'ючерси
Сотні безстрокових контрактів
CFD
Золото
Одна платформа для світових активів
Опціони
Hot
Торгівля ванільними опціонами європейського зразка
Єдиний рахунок
Максимізуйте ефективність вашого капіталу
Демо торгівля
Вступ до ф'ючерсної торгівлі
Підготуйтеся до ф’ючерсної торгівлі
Ф'ючерсні події
Заробляйте, беручи участь в подіях
Демо торгівля
Використовуйте віртуальні кошти для безризикової торгівлі
Запуск
CandyDrop
Збирайте цукерки, щоб заробити аірдропи
Launchpool
Швидкий стейкінг, заробляйте нові токени
HODLer Airdrop
Утримуйте GT і отримуйте масові аірдропи безкоштовно
Pre-IPOs
Отримайте повний доступ до глобальних IPO акцій.
Alpha Поінти
Ончейн-торгівля та аірдропи
Ф'ючерсні бали
Заробляйте фʼючерсні бали та отримуйте аірдроп-винагороди
Інвестиції
Simple Earn
Заробляйте відсотки за допомогою неактивних токенів
Автоінвестування
Автоматичне інвестування на регулярній основі
Подвійні інвестиції
Прибуток від волатильності ринку
Soft Staking
Earn rewards with flexible staking
Криптопозика
0 Fees
Заставте одну криптовалюту, щоб позичити іншу
Центр кредитування
Єдиний центр кредитування
Центр багатства VIP
Преміальні плани зростання капіталу
Управління приватним капіталом
Розподіл преміальних активів
Квантовий фонд
Квантові стратегії найвищого рівня
Стейкінг
Стейкайте криптовалюту, щоб заробляти на продуктах PoS
Розумне кредитне плече
Кредитне плече без ліквідації
Випуск GUSD
Мінтинг GUSD для прибутку RWA
Акції
Центр діяльності
Беріть учать та отримуйте винагороди
Реферал
20 USDT
Запрошуйте друзів та отримуйте бонуси
Партнерська програма
Ексклюзивні комісійні винагороди
Gate Booster
Зростайте та отримуйте аірдропи
Оголошення
Оновлення платформи в реальному часі
Блог Gate
Статті про криптоіндустрію
VIP послуги
Величезні знижки на комісії
Управління активами
Універсальне рішення для управління активами
Інституційний
Рішення цифрових активів для бізнесу
Розробники (API)
Підключається до екосистеми додатків Gate
Позабіржовий банківський переказ
Поповнюйте та виводьте фіат
Брокерська програма
Щедрі механізми знижок API
AI
Gate AI
Ваш універсальний AI-помічник для спілкування
Gate AI Bot
Використовуйте Gate AI безпосередньо у своєму соціальному додатку
GateClaw
Gate Блакитний Лобстер — готовий до використання
Gate for AI Agent
AI-інфраструктура, Gate MCP, Skills і CLI
Gate Skills Hub
Понад 10 000 навичок
Від офісу до трейдингу: універсальна база навичок для ефективнішої роботи з AI
GateRouter
Розумний вибір із понад 40 моделей ШІ, без додаткових витрат (0%)
За кулісами "таємничого чіпа" NVIDIA — ера дедукції відкриває "чотири нові тенденції у обчислювальній потужності"
Nvidia інтегрує технологію LPU (language processing unit) та багатолінійний чип для виведення ставок від OpenAI, а також переносить основне поле бою конкуренції обчислювальної потужності ШІ з навчання на інференцію. Дослідження Шеньвань Хун'юаня вважають, щоКлючовим словом індустрії обчислювальної енергетики у 2026 році буде міркування, і загальне споживання токенів та технічна парадигма будуть глибоко перебудовані навколо цієї теми.
28 лютого, за даними Wall Street Journal, Nvidia планує випустити новий інференційний чип, який інтегрує технологію «мовного процесора» (LPU) Groq на конференції розробників GTC наступного місяця.Генеральний директор Nvidia Дженсен Хуанг назвав її абсолютно новою системою, «якої світ ще не бачив».。 OpenAI погодилася стати одним із найбільших клієнтів процесора та придбати у Nvidia масштабні «спеціалізовані інференційні потужності».
Тим часом минулого місяця OpenAI уклала багатомільярдне партнерство у сфері обчислень зі стартапом Cerebras, який заявив, що їхні інференційні чипи перевершили графічні процесори Nvidia (графічні процесори). Ця низка тенденцій показує, щоГіганти штучного інтелекту переходять від гонки озброєнь до багатолінійної схеми обчислювальної потужності для виведення.
У звіті Шеньвань Хун'юань зазначалося,В епоху токенової економіки потужність інференційних обчислювальних потужностей відкриває чотири основні тенденціїПо-перше, кількість сценаріїв розгортання чисто CPU (центрального процесорного блоку) збільшилася, а попит на недорогі інференції прискорив зниження обчислювальної потужності; по-друге, зростання спеціалізованих архітектур, таких як LPU, що кидає виклик домінуванню GPU у процесі виведення; По-третє, вітчипах обчислювальної потужності прискорили прориви, і тенденція диверсифікації ланцюгів постачання очевидна; По-четверте, структура попиту на виведення обчислювальної потужності змінилася з «єдиного навчання» на «масове споживання токенів», а ефективність витрат стала ключовим конкурентним фактором.
У звіті йшлося,Виробники, які можуть надати достатню та економічно вигідну інференцію, отримають найбільшу вигоду, а спільний прорив процесорів, LPU та вітчизняних чипів є основними підказками цього етапу змін схем обчислювальної потужності.
Попит на виведення вибухнув, а споживання токенів досягло рекордного рівня
---------------------
Дослідження Шеньвань Хун'юаня вважають, щоЗа безперервним зростанням попиту стоять дві структурні рушійні сили: по-перше, монетизація великих моделей прискорилася, і такі моделі, як Claude, почали залучатися до сфери застосування та випускати різноманітні галузеві плагіни;По-друге, реалізація агентів була прискорена, і такі продукти, як openclaw і Qianwen Agent, позначають те, що агенти входять у реальні робочі та виробничі сценарії, і кожен виклик моделі та виконання завдань агента потребують значної підтримки обчислювальної потужності виведення.
За даними, наведеними дослідженням Shenwan Hongyuan Research, обсяг виведення провідних вітчизняних великих моделей значно зріс під час Весняного фестивалю: пропускна здатність Doubao у новорічну ніч досягла 63,3 мільярда токенів, щомісячна активна кількість користувачів Yuanbao — 114 мільйонів, а кількість учасників активності Qianwen «Spring Festival Free Order» перевищила 120 мільйонів.
Дані від OpenRouter, глобальної платформи агрегації API моделей ШІ, ще раз підкреслюють масштаб цієї тенденції. За тиждень з 9 по 15 лютого китайська модель вперше перевершила американську модель у 2,94 трильйона токенів, набравши 4,12 трильйона токенів; у тиждень з 16 по 22 лютого кількість китайських модельних дзвінків ще більше зросла до 5,16 трильйона токенів, що на 127% більше за три тижні, а Китай зайняв чотири з п'яти провідних моделей світу.
LPU став новачком, і навчальні та інференційні чипи диференційовані
------------------
Nvidia витратила 20 мільярдів доларів на ліцензування основної технології Groq і залучила виконавчу команду, включно з засновником Джонатаном Россом, у рамках угоди про «найм ядра». Дослідження Шеньвань Хун'юаня вважають, щоЦя угода офіційно визнає важливість фішок чистого розуму провідними гравцями.
Архітектурна різниця між LPU та традиційними GPU є фундаментальною причиною, чому вони мають переваги в ефективності у сценаріях виведення.Інференція ШІ поділяється на два етапи: попереднє заповнення та декодування, а процес декодування великих моделей особливо повільний, тоді як LPU спеціально оптимізований для двох основних вузьких місць виведення — затримки та пропускної здатності пам'яті. За попередніми повідомленнями Wall Street News, майбутні нові продукти Nvidia можуть включати архітектуру наступного покоління Feynman, або впроваджувати ширшу схему інтеграції SRAM, або навіть глибоко інтегрувати LPU через технологію 3D-стекування.
Shenwan Hongyuan Research оцінює, що в майбутньому чіпи на базі ШІ сформуватимуть чітку модель технічного підрозділу:Навчальна частина продовжує використовувати комбінацію GPU-HBM, тоді як інференція розвивається у схему комбінації ASIC+LPU-SRAM+SSD. Оскільки попит на обчислювальну потужність переходить від навчання до інференції, виробники, зосереджуючись на інференційних чипах, відкриватимуть можливості для розробки.
Система виведення була комплексно вдосконалена, а вимоги до процесора та мережі одночасно зросли
---------------------
Від одного чипа до рівня системи інновації є ще одним важливим виміром цього етапу підвищення обчислювальної потужності з інференцією. Shenwan Hongyuan Research зазначила, що зі зміною сценарію застосування з чат-бота на агента,Вимоги до затримки, пропускної здатності та глибини мислення в обчислювальних системах зросли одночасно, сприяючи розвитку архітектури системи до мереж рівня 3.
Перший шар — це шар швидкої реакції, забезпечений чистим інференційним чипом, оснащеним SRAM для наднизької затримки зворотного зв'язку;Другий рівень — це рівень повільного мислення, використовуючи кластери обчислювальної потужності надвеликої пропускної здатності для обробки складного логічного виведення, попит на багатоядерні та багатопотокові процесори на цьому рівні значно зросте;Третій шар — це шар пам'яті, що відповідає системі ContextMemory System, випущеній NVIDIA, довготривалій пам'яті та кешу KV SSD-накопичувачів, керованих DPU Bluefield4.
Nvidia також коригує свою стратегію на апаратному рівні. Попередня стандартна практика об'єднання процесорів Vera з GPU Rubin виявилася надто дорогою для конкретних навантажень агентів ШІ. Nvidia оголосила цього місяця, що розширила партнерство з Meta Platforms, щоб завершити своє перше масштабне впровадження чистого процесора для підтримки AI-агентів Meta, орієнтованих на рекламу, що свідчить про те, що компанія виходить за межі моделі продажу одного GPU.
Прориви у вітчизняній обчислювальній потужності прискорилися
--------
Дослідження Шеньвань Хун'юаня вважають, щоТехнологічне оновлення домашніх інференційних чипів заслуговує на нього увагу., і ринкові очікування погані.
На технічному рівні,Нове покоління вітчипів інференції досягло низки фундаментальних покращень: Додано підтримку низькоточних форматів даних, таких як FP8/MXFP8/MXFP4, з обчислювальною потужністю відповідно 1P і 2P. Значно підвищити векторну обчислювальну потужність і впровадити нову ізоморфну конструкцію, що підтримує моделі подвійного програмування SIMD/SIMT. Пропускна здатність міжз'єднання у 2,5 раза більша, ніж у попереднього покоління, досягаючи 2 ТБ/с.
Особливо варто відзначити, що розділення PD досягається на рівні чипа: за допомогою самостійно розробленої HBM з двома різними специфікаціями вона є PR-версією для сценаріїв попереднього заповнення та рекомендацій, а також DT-версією для декодування та навчальних сценаріїв. Серед них версія PR використовує недорогий HBM, що може суттєво знизити інвестиційні витрати на етап попереднього заповнення інференції, і очікується запуск у першому кварталі 2026 року.
На рівні ланцюга постачання прогрес вітчизняних виробників пакування та тестування є доказом. Згідно з першим раундом запиту та відповіді провідної компанії з пакування та тестування, доходи бізнесу з упаковки 2.5D переважно надходять від високопродуктивних сервісів упаковки обчислювальних чипів, які швидко зросли з 50 мільйонів юанів у 2022 році до 1,82 мільярда юанів у 2024 році.Це підтверджує, що потужності постачання вітчипів обчислювальної потужності продовжують зростати, а процес локалізації ланцюга постачання прискорюється.
Попередження про ризики та застереження
Ринок ризикований, і інвестиції мають бути обережними. Ця стаття не є особистою інвестиційною консультацією і не враховує конкретні інвестиційні цілі, фінансову ситуацію чи потреби окремих користувачів. Користувачам слід врахувати, чи відповідають будь-які думки, думки чи висновки, викладені в цій статті, їхнім конкретним обставинам. Інвестуйте відповідно на власний ризик.