Membaca satu artikel untuk memahami pidato Jen-Hsun Huang di Konferensi GTC NVIDIA: Percaya teguh bahwa Daya Komputasi tidak akan pernah tidur

Penulis: Su Yang, Hao Boyang; Sumber: Teknologi Tencent

Sebagai ‘penjual sekop’ era AI, Huang Renxun dan Nvidia-nya selalu yakin bahwa daya komputasi tidak pernah tidur.

图片

Hwang In-hyun menyebutkan dalam pidato GTC bahwa permintaan daya komputasi meningkat 100 kali lipat karena inferensi.

Pada konferensi GTC hari ini, Huang Renxun memperkenalkan GPU Blackwell Ultra baru dan SKU server yang digunakan untuk inferensi dan agen berbasis ini, termasuk rangkaian RTX berbasis arsitektur Blackwell, semuanya terkait dengan daya komputasi, tetapi yang lebih penting adalah bagaimana menghabiskan daya komputasi yang terus-menerus dengan bijaksana dan efisien.

Dalam pandangan Huang Renxun, untuk mencapai AGI diperlukan daya komputasi, robot cerdas yang memiliki tubuh memerlukan daya komputasi, dan membangun Omniverse dan model dunia memerlukan pasokan daya komputasi yang berkelanjutan. Mengenai berapa banyak daya komputasi yang diperlukan untuk manusia akhirnya membangun ‘alam semesta paralel’ virtual, NVIDIA memberikan jawaban - 100 kali lipat dari sebelumnya.

Untuk mendukung pandangannya, Huang Renxun memamerkan serangkaian data saat GTC - pada tahun 2024, empat perusahaan awan teratas di Amerika Serikat secara total membeli 1,3 juta chip arsitektur Hopper, dan angka ini melonjak menjadi 3,6 juta GPU Blackwell pada tahun 2025.

Berikut adalah beberapa poin inti dari konferensi besar NVIDIA GTC 2025 yang disusun oleh Tencent Teknologi.

Paket lengkap Blackwell diluncurkan

1)Tahun ini, ‘bom nuklir’ Blackwell Ultra dalam memeras pasta gigi

NVIDIA merilis arsitektur Blackwell di GTC tahun lalu, dan meluncurkan chip GB200. Nama resminya tahun ini mengalami penyesuaian kecil, bukan seperti yang diberitakan sebelumnya GB300, langsung disebut sebagai Blakwell Ultra.

Tetapi dari segi perangkat keras, itu hanya mengganti memori HBM baru tahun lalu. Singkatnya, Blackwell Ultra= versi memori besar Blackwell.

Blackwell Ultra berasal dari chip TSMC N4P (5nm) ganda, dikemas dengan arsitektur chip Blackwell + CPU Grace, dan dipasangkan dengan memori HBM3e yang lebih maju dengan tumpukan 12 lapis, meningkatkan VRAM menjadi 288GB, dan seperti generasi sebelumnya, mendukung NVLink generasi kelima, dapat mencapai bandwidth interkoneksi antar chip sebesar 1.8TB/s.

图片

Parameter kinerja NVLink historis

Dengan upgrade berbasis penyimpanan, kekuatan komputasi FP4 GPU Blackwell dapat mencapai 15PetaFLOPS, kecepatan inferensi berdasarkan mekanisme Akselerasi Perhatian, meningkatkan 2.5 kali lipat dibandingkan dengan chip arsitektur Hopper.

2)Blackwell Ultra NVL72:AI inference dedicated cabinet

图片

Gambar resmi Blackwell Ultra NVL72

Sama seperti GB200 NVL72, Nvidia juga meluncurkan produk serupa tahun ini, yaitu rak Blackwell Ultra NVL72, terdiri dari total 18 tray komputasi, setiap tray komputasi berisi 4 GPU Blackwell Ultra + 2 CPU Grace, sehingga totalnya adalah 72 GPU Blackwell Ultra + 36 CPU Grace, dengan memori grafis mencapai 20TB, bandwidth total 576TB/s, ditambah dengan 9 tray switch NVLink (18 chip switch NVLink), bandwidth NVLink antar node 130TB/s.

Dalam kotak terdapat 72 kartu jaringan CX-8, menyediakan bandwidth 14.4TB/s, Quantum-X800 InfiniBand dan kartu Ethernet Spectrum-X 800G dapat mengurangi latensi dan jitter, mendukung klaster AI berskala besar. Selain itu, rak juga terintegrasi dengan 18 kartu BlueField-3 DPU untuk meningkatkan jaringan multi-penyewa, keamanan, dan akselerasi data.

NVIDIA mengatakan produk ini didesain khusus untuk ‘era inferensi AI’, dengan aplikasi termasuk AI inferensi, Agen, dan AI fisik yang digunakan untuk robot, serta sintesis data untuk pelatihan cerdas. Dibandingkan dengan produk generasi sebelumnya GB200 NVL72, kinerja AI meningkat 1.5 kali lipat, dan dibandingkan dengan produk rak DGX yang sejajar dengan arsitektur Hopper, dapat memberikan kesempatan peningkatan pendapatan 50 kali lipat untuk pusat data.

Berdasarkan informasi resmi yang disediakan, inferensi 6710 miliar parameter DeepSeek-R1, berdasarkan produk H100 dapat mencapai 100 token per detik, sedangkan dengan menggunakan skema Blackwell Ultra NVL72, dapat mencapai 1000 token per detik.

Dalam hal waktu, tugas pemikiran yang sama, H100 membutuhkan 1,5 menit untuk berjalan, sementara Blackwell Ultra NVL72 hanya memerlukan 15 detik.

图片

Spesifikasi perangkat keras Blackwell Ultra NVL72 dan GB200 NVL72

Berdasarkan informasi yang diberikan oleh NVIDIA, produk terkait Blackwell NVL72 diharapkan akan diluncurkan pada paruh kedua tahun 2025, pelanggan termasuk produsen server, perusahaan cloud, dan penyedia layanan sewa daya komputasi.

  • Vendor Server

Cisco/Dell/HPE/Lenovo/超微等15家制造商 Pabrik Cloud

Platform utama seperti AWS/Google Cloud/Azure/Oracle Cloud

  • Penyewaan Daya Komputasi

CoreWeave/Lambda/Yotta等

( 3)Mengumumkan lebih awal tentang chipset GPU Rubin yang benar-benar “bom nuklir”

Menurut peta jalan NVIDIA, tuan rumah GTC2025 adalah Blackwell Ultra.

Namun, Huang Renxun juga menggunakan kesempatan ini untuk mengumumkan GPU generasi berikutnya berbasis arsitektur Rubin yang akan diluncurkan pada tahun 2026 serta server rack Vera Rubin NVL144 yang lebih kuat - 72 Vera CPU + 144 Rubin GPU, dengan chip HBM4 berkapasitas 288GB, bandwidth memori 13TB/s, dilengkapi dengan generasi keenam NVLink dan kartu jaringan CX9.

Seberapa kuat produk ini? Daya komputasi inferensi presisi FP4 mencapai 3.6ExaFLOPS, dan daya latih presisi FP8 mencapai 1.2ExaFlOPS, kinerjanya adalah 3.3 kali lipat dari Blackwell Ultra NVL72.

Jika Anda merasa itu belum cukup, tidak masalah, di tahun 2027 ada lemari server Rubin Ultra NVL576 yang lebih kuat, dengan inferensi presisi FP4 dan daya komputasi pelatihan presisi FP8 masing-masing sebesar 15ExaFLOPS dan 5ExaFLOPS, 14 kali lipat dari Blackwell Ultra NVL72.

![图片])https://img.gateio.im/social/moments-116d07948d787697d1e19a423dc7ace4###

Parameter Rubin Ultra NVL144 dan Rubin Ultra NVL576 yang disediakan secara resmi oleh NVIDIA

( 4)Blackwell Ultra Edition DGX Super POD ‘Pabrik Superkomputer’

Bagi klien yang saat ini tidak puas dengan Blackwell Ultra NVL72 dan tidak memerlukan pembangunan klaster AI berskala besar, solusi dari NVIDIA adalah pabrik superkomputer AI DGX Super POD berbasis Blackwell Ultra yang siap pakai.

Sebagai pabrik superkomputer AI plug-and-play, DGX Super POD terutama ditujukan untuk skenario AI generatif, AI Agent, dan simulasi fisik, mencakup kebutuhan perluasan daya komputasi dari pra-pelatihan hingga produksi, Equinix sebagai penyedia layanan pertama, menyediakan dukungan infrastruktur pendingin cair/udara.

![图片])https://img.gateio.im/social/moments-d459d098063a0ff6728108328daffd3f###

DGX SuperPod yang dibangun oleh Blackwell Ultra

DGX Super POD berbasis kustom Blackwell Ultra memiliki dua versi:

  • DGX SuperPOD yang dilengkapi dengan DGX GB300 (Grace CPU ×1 + Blackwell Ultra GPU ×2), total 288 unit Grace CPU + 576 unit Blackwell Ultra GPU, menyediakan 300TB memori cepat, dengan kekuatan komputasi 11.5ExaFLOPS pada presisi FP4
  • DGX SuperPOD dengan DGX B300 built-in, versi ini tidak termasuk chip CPU Grace, memiliki ruang ekspansi lebih lanjut, dan menggunakan sistem pendingin udara, dengan aplikasi utama di pusat data tingkat perusahaan

( 5)DGX Spark dan DGX Station

Pada bulan Januari tahun ini, NVIDIA memamerkan produk PC AI konseptual dengan harga $3000 di CES - Project DIGITS, sekarang memiliki nama resmi DGX Spark.

Dalam hal spesifikasi produk, dilengkapi dengan chip GB10, kekuatan akurasi di bawah FP4 dapat mencapai 1PetaFlops, dengan memori internal 128GB LPDDR5X, kartu jaringan CX-7, penyimpanan NVMe 4TB, menjalankan sistem operasi DGX OS khusus berbasis Linux, mendukung kerangka kerja seperti Pytorch, dan telah dipasang dengan beberapa alat pengembangan perangkat lunak AI dasar yang disediakan oleh Nvidia, dapat menjalankan model dengan 200 miliar parameter. Ukuran seluruh mesin hampir sama dengan Mac mini, dua unit DGX Spark saling terhubung, dan dapat menjalankan model dengan lebih dari 400 miliar parameter.

Meskipun kami menyebutnya sebagai PC AI, namun pada dasarnya masih termasuk dalam kategori superkomputer, sehingga ditempatkan dalam serangkaian produk DGX, bukan di dalam produk konsumen seperti RTX.

Namun, ada juga yang mengeluh tentang produk ini, kinerja promosi FP4 rendah, ketika dikonversi ke presisi FP16 hanya sebanding dengan RTX 5070, atau bahkan Arc B580 seharga 250 dolar, sehingga nilainya sangat rendah.

![图片])https://img.gateio.im/social/moments-0ad2286c98bbdacda9a450abd3606e80###

Komputer DGX Spark dan workstation DGX Station

Selain DGX Spark yang memiliki nama resmi, Nvidia juga merilis sebuah workstation AI berbasis Blackwell Ultra, workstation ini dilengkapi dengan CPU Grace dan GPU Blackwell Ultra, dilengkapi dengan memori bersatu 784GB, kartu jaringan CX-8, menyediakan kekuatan AI 20PetaFlops (tidak ditandai resmi, secara teoritis juga FP4 presisi).

( 6)RTX menyapu AI PC, bahkan harus masuk ke pusat data

Semua yang telah dijelaskan sebelumnya adalah SKU produk berbasis CPU Grace dan GPU Blackwell, dan semuanya adalah produk tingkat perusahaan, mengingat banyak orang tertarik pada kegunaan AI RTX 4090 dan sejenisnya, NVIDIA juga memperkuat integrasi Blackwell dan seri RTX dalam GTC kali ini, meluncurkan sejumlah GPU terkait PC AI yang dilengkapi dengan memori GDDR7 internal, mencakup berbagai skenario seperti laptop, desktop, dan bahkan pusat data.

  • GPU Desktop: termasuk RTX PRO 6000 Blackwell versi workstation, RTX PRO 6000 Blackwell Max-Q versi workstation, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell, dan RTX PRO 4000 Blackwell
  • GPU Laptop: RTX PRO 5000 Blackwell, RTX PRO 4000 Blackwell, RTX, PRO 3000 Blackwell, RTX PRO 2000 Blackwell, RTX PRO 1000 Blackwell dan RTX PRO 500 Blackwell
  • Data center GPU: NVIDIA RTX PRO 6000 Blackwell server edition

![图片])https://img.gateio.im/social/moments-b6c591bdc6c60a8e477fc88631a3b9a0###

“Bucket keluarga” AI NVIDIA untuk komputasi tingkat perusahaan

Hanya sebagian dari SKU yang disesuaikan untuk berbagai skenario berdasarkan chip Blackwell Ultra, mulai dari workstation hingga pusat data cluster, NVIDIA menyebutnya sebagai “Keluarga Blackwell”, yang diterjemahkan ke dalam Bahasa Cina sebagai “Blackwell Family”, tidak ada yang lebih cocok.

Nvidia Photonics: Sistem CPO yang Berdiri di Pundak Rekan Tim

Konsep Modul CPO (Core-Photonic) secara sederhana adalah menyatukan chip switch dan modul optik dalam kemasan bersama, yang dapat mengubah sinyal cahaya menjadi sinyal listrik dan memanfaatkan sepenuhnya kinerja transmisi sinyal cahaya.

Sebelum ini, industri telah lama membincangkan produk saklar jaringan CPO dari NVIDIA, tetapi masih belum dilancarkan. Huang Renxun juga memberikan penjelasan di tempat - kerana banyak menggunakan sambungan gentian optik di pusat data, penggunaan tenaga bersih dalam rangkaian optik setara dengan 10% sumber kiraan, kos sambungan optik secara langsung memberi kesan kepada peningkatan kepadatan rangkaian Scale-Out dan prestasi kecerdasan buatan.

图片

Parameter Quantum-X, Spectrum-X chip yang tertanam di GTC.

GTC NVIDIA tahun ini secara bersamaan meluncurkan chip silikon optik Quantum-X, chip silikon optik Spectrum-X, dan tiga produk switch turunan: Quantum 3450-LD, Spectrum SN6810, dan Spectrum SN6800.

  • Quantum 3450-LD: 144 port 800GB/s, backplane bandwidth 115TB/s, liquid cooling
  • Spectrum SN6810: 128 port 800GB/s, 102.4TB/s backplane bandwidth, liquid cooling
  • Spectrum SN6800: 512 port 800GB/s, 409.6TB/s bandwidth, liquid cooling

Produk-produk di atas digolongkan ke dalam ‘NVIDIA Photonics,’ yang merupakan platform kolaborasi ekosistem mitra CPO yang dikembangkan bersama, seperti modulator cincin mikro (MRM) yang dioptimalkan berdasarkan mesin optik TSMC, mendukung modulasi laser berdaya tinggi dan efisien, serta menggunakan konektor serat optik yang dapat dilepas.

Yang menarik, menurut data industri sebelumnya, modulator cincin mikro TSMC (MRM) dibangun olehnya dengan Broadcom berdasarkan teknologi proses 3nm dan teknologi pengepakan canggih CoWoS.

Menurut data yang diberikan oleh NVIDIA, kinerja switch fotonik yang mengintegrasikan modul cahaya meningkat 3,5 kali lipat dibandingkan dengan switch tradisional, efisiensi implementasi juga dapat ditingkatkan 1,3 kali lipat, dan elastisitas perluasan lebih dari 10 kali lipat.

Efisiensi Model PK DeepSeek: Ekosistem Perangkat Lunak Mendorong AI Agent

图片

Huang Renxun menggambarkan ‘kue besar’ AI infrastruktur di tempat

Karena dalam GTC kali ini yang berlangsung selama 2 jam, Huang Renxun hanya berbicara sekitar setengah jam tentang perangkat lunak dan kecerdasan buatan. Oleh karena itu, banyak detail yang disampaikan melalui dokumen resmi, bukan sepenuhnya berasal dari tempat acara.

( 1)Nvidia Dynamo, CUDA baru yang dibangun oleh Nvidia di bidang inferensi

Nvidia Dynamo pasti menjadi kartu truf perangkat lunak yang dirilis saat ini.

Ini adalah perangkat lunak sumber terbuka yang dirancang khusus untuk percepatan inferensi, pelatihan, dan lintas pusat data secara keseluruhan. Data kinerja Dynamo sangat mengejutkan: dengan arsitektur Hopper yang ada, Dynamo dapat meningkatkan kinerja model Llama standar. Dan untuk model inferensi khusus seperti DeepSeek, optimisasi inferensi cerdas NVIDIA Dynamo bahkan dapat meningkatkan jumlah token yang dihasilkan oleh setiap GPU lebih dari 30 kali lipat.

![图片])https://img.gateio.im/social/moments-e2048dbf1ea9e5d046fd9fd8bca2a244###

Huang Renxun menunjukkan bahwa Blackwell dengan Dynamo dapat melebihi Hopper lebih dari 25 kali lipat

Peningkatan-peningkatan ini dalam Dynamo terutama didorong oleh distribusi. Ini membagi tahapan komputasi LLM (memahami kueri pengguna dan menghasilkan respons terbaik) ke GPU yang berbeda, memungkinkan setiap tahapan untuk dioptimalkan secara independen, meningkatkan throughput dan mempercepat respons.

图片

Arsitektur sistem Dynamo

Misalnya, dalam tahap pemrosesan input, yaitu tahap pra-pengisian, Dynamo dapat secara efisien mengalokasikan sumber daya GPU untuk memproses input pengguna. Sistem akan menggunakan beberapa set GPU secara paralel untuk memproses kueri pengguna, dengan harapan pengolahan GPU lebih tersebar dan lebih cepat. Dynamo menggunakan mode FP4 untuk memanggil beberapa GPU secara bersamaan secara paralel untuk “membaca” dan “memahami” masalah pengguna, di mana satu set GPU memproses pengetahuan latar belakang “Perang Dunia II”, yang lain memproses informasi seputar “penyebab”, dan yang lainnya memproses garis waktu dan peristiwa seputar “proses”. Tahap ini seperti beberapa asisten peneliti yang secara bersamaan mengakses sejumlah besar informasi.

Dalam pembuatan token output, yaitu dalam fase decoding, GPU harus lebih fokus dan koheren. Dibandingkan dengan jumlah GPU, tahap ini membutuhkan lebih banyak bandwidth untuk menyerap informasi pemikiran dari tahap sebelumnya, sehingga juga membutuhkan lebih banyak pembacaan cache. Dynamo mengoptimalkan komunikasi antar-GPU dan alokasi sumber daya untuk memastikan pembuatan respons yang konsisten dan efisien. Di satu sisi, ia memanfaatkan sepenuhnya kemampuan komunikasi NVLink bandwidth tinggi dari arsitektur NVL72 untuk memaksimalkan efisiensi pembuatan token. Di sisi lain, “Smart Router” mengarahkan permintaan ke GPU yang telah menyimpan ( nilai kunci KV) yang relevan, yang menghindari perhitungan ganda dan sangat meningkatkan kecepatan pemrosesan. Dengan menghindari komputasi ganda, beberapa sumber daya GPU dibebaskan, dan Dynamo dapat secara dinamis mengalokasikan sumber daya menganggur ini ke permintaan masuk baru.

Arsitektur ini sangat mirip dengan arsitektur Mooncake Kimi, tetapi Nvidia memberikan lebih banyak dukungan pada infrastruktur dasar. Mooncake mungkin meningkat sekitar 5 kali lipat, tetapi peningkatan yang lebih signifikan terlihat pada Dynamo.

Misalnya, di antara inovasi utama Dynamo, “GPU Planner” secara dinamis menyesuaikan alokasi GPU berdasarkan beban, “Low Latency Communication Library” mengoptimalkan transfer data antar GPU, dan “Memory Manager” secara cerdas memindahkan data inferensi antar perangkat penyimpanan pada tingkat biaya yang berbeda, sehingga semakin mengurangi biaya pengoperasian. Smart router, sistem routing LLM-aware, mengarahkan permintaan ke GPU yang paling tepat untuk mengurangi penghitungan ganda. Semua kemampuan ini mengoptimalkan beban pada GPU.

Sistem inferensi ini dapat diperluas secara efisien ke klaster GPU besar, memungkinkan satu kueri AI tunggal diperluas secara mulus hingga 1000 GPU untuk memanfaatkan sumber daya pusat data sepenuhnya.

Bagi operator GPU, peningkatan ini mengurangi biaya per juta token secara signifikan dan meningkatkan kapasitas secara substansial. Pada saat yang sama, pengguna individu mendapatkan lebih banyak token per detik, merespons lebih cepat, dan pengalaman pengguna ditingkatkan.

图片

Dengan Dynamo, mencapai garis keseimbangan emas antara throughput server dan kecepatan tanggapan

Berbeda dengan CUDA sebagai dasar pemrograman GPU, Dynamo adalah sistem yang lebih tinggi tingkatnya, fokus pada alokasi dan manajemen cerdas beban inferensi dalam skala besar. Ini bertanggung jawab atas lapisan penjadwalan terdistribusi untuk optimisasi inferensi, berada di antara aplikasi dan infrastruktur komputasi dasar. Namun, seperti CUDA sepuluh tahun lalu mengubah sepenuhnya lanskap komputasi GPU, Dynamo juga mungkin berhasil menciptakan paradigma baru efisiensi perangkat lunak dan perangkat keras inferensi.

Dynamo sepenuhnya open source, mendukung semua framework utama dari PyTorch hingga Tensor RT. Meskipun sudah open source, ini tetap menjadi benteng pertahanan yang kuat. Seperti CUDA, ini hanya efektif untuk GPU NVIDIA, dan merupakan bagian dari tumpukan perangkat lunak AI inferensi NVIDIA.

Dengan menggunakan perangkat lunak ini, NVIDIA telah membangun pertahanan sendiri untuk melawan chip ASIC inferensi khusus seperti Groq. Kombinasi perangkat lunak dan perangkat keras diperlukan untuk mendominasi infrastruktur inferensi.

( 2)Llama Nemotron menampilkan model baru yang efisien, tetapi masih kalah dengan DeepSeek

Meskipun dalam hal pemanfaatan server, Dynamo memang cukup mengesankan, tetapi dalam hal pelatihan model, Nvidia masih sedikit tertinggal dari yang ahli sejati.

NVIDIA memperkenalkan model baru Llama Nemotron dalam GTC kali ini, dengan fokus pada efisiensi dan akurasi. Model ini berasal dari turunan model Llama. Setelah disesuaikan khusus oleh NVIDIA, model ini telah dioptimalkan dengan algoritma pemangkasan dibandingkan dengan Llama aslinya, sehingga menjadi lebih ringan, hanya 48B. Ini juga dilengkapi dengan kemampuan penalaran serupa dengan o1. Seperti Claude 3.7 dan Grok 3, model Llama Nemotron dilengkapi dengan sakelar kemampuan penalaran yang dapat diaktifkan atau dinonaktifkan oleh pengguna. Seri ini terdiri dari tiga tingkatan: Nano untuk pemula, Super untuk menengah, dan Ultra sebagai unggulan, masing-masing ditujukan untuk kebutuhan perusahaan dengan skala yang berbeda.

![图片])https://img.gateio.im/social/moments-f96380931cf2a144170345b7ec105846###

Data spesifik Llama Nemotron

Ketika berbicara tentang efisiensi, kumpulan data fine-tuning model ini terdiri sepenuhnya dari data sintetis yang dihasilkan sendiri oleh NVIDIA, dengan total sekitar 60B token. Dibandingkan dengan DeepSeek V3 yang menggunakan 1,3 juta H100 jam untuk pelatihan lengkap, model ini yang hanya memiliki 1/15 jumlah parameter dari DeepSeek V3 hanya memerlukan 360 ribu H100 jam untuk fine-tuning. Efisiensi pelatihannya lebih rendah satu tingkat dibanding DeepSeek.

Dalam hal efisiensi penalaran, model Llama Nemotron Super 49B memang jauh lebih baik daripada model generasi sebelumnya, dengan throughput token mencapai 5 kali lipat dari Llama 3 70B, di bawah satu GPU pusat data itu bisa mencapai lebih dari 3000 token per detik. Namun, dalam data yang diumumkan pada hari terakhir acara Open Day oleh DeepSeek, rata-rata throughput setiap node H800 selama periode prefill sekitar 73.7k token/s input (termasuk cache hit) atau sekitar 14.8k token/s output selama periode decoding. Perbedaan keduanya masih sangat jelas.

图片

Dari segi kinerja, Llama Nemotron Super 49B melampaui model Llama 70B yang telah didistilasi oleh DeepSeek R1 dalam semua indikator. Namun mengingat seringnya model-parameter kecil yang kuat seperti Qwen QwQ 32B baru-baru ini, Llama Nemotron Super diperkirakan sulit untuk bersinar di antara model-model yang dapat bersaing dengan R1.

Yang paling penting adalah, model ini, memberikan bukti nyata bahwa DeepSeek mungkin lebih memahami cara melatih GPU selama proses pelatihan daripada NVIDIA.

( 3)Model baru hanyalah pembuka bagi ekosistem AI Agent NVIDIA, AIQ NVIDA adalah hidangan utama

Mengapa NVIDIA mengembangkan model inferensi? Ini terutama untuk mempersiapkan AI Agent, yang menjadi titik ledak AI berikutnya yang dipercayai oleh Huang. Sejak perusahaan besar seperti OpenAI, Claude, dan lainnya secara bertahap membangun dasar Agent melalui DeepReasearch, MCP, NVIDIA juga jelas merasa bahwa era Agent telah tiba.

Proyek NVIDA AIQ adalah upaya NVIDIA. Ini langsung menyediakan alur kerja siap pakai untuk AI Agent perencana yang memiliki model inferensi Llama Nemotron sebagai inti. Proyek ini termasuk dalam tingkat Blueprint NVIDIA, yang mengacu pada serangkaian alur kerja referensi yang telah dikonfigurasi sebelumnya, adalah templat yang membantu pengembang mengintegrasikan teknologi dan perpustakaan NVIDIA dengan lebih mudah. Sedangkan AIQ adalah templat Agen yang disediakan oleh NVIDIA.

![图片])https://img.gateio.im/social/moments-97ea77b03ad4a4fe4b1b1fede25596a4###

arsitektur NVIDA AIQ

Sama seperti Manus, ia mengintegrasikan mesin pencari web dan alat eksternal lainnya seperti agen AI profesional lainnya, yang memungkinkan Agen ini dapat melakukan pencarian dan menggunakan berbagai alat. Melalui perencanaan model penalaran Llama Nemotron, merefleksikan dan mengoptimalkan solusi, untuk menyelesaikan tugas pengguna. Selain itu, ia juga mendukung pembangunan arsitektur alur kerja multi Agen.

图片

Sistem servicenow yang dibuat berdasarkan templat ini

Lebih lanjut dari Manus, itu memiliki sistem RAG yang kompleks untuk file perusahaan. Sistem ini melibatkan serangkaian langkah seperti ekstraksi, penyisipan, penyimpanan vektor, dan pengaturan ulang hingga akhirnya diolah oleh LLM, untuk memastikan data perusahaan dapat digunakan oleh Agen.

Di atas itu, NVIDIA juga meluncurkan platform data AI, menghubungkan model inferensi AI ke sistem data perusahaan, membentuk DeepReasearch yang ditargetkan pada data perusahaan. Ini menyebabkan evolusi teknologi penyimpanan yang signifikan, mengubah sistem penyimpanan bukan lagi hanya menjadi gudang data, tetapi menjadi platform cerdas yang memiliki kemampuan inferensi dan analisis aktif.

图片

Komponen Platform Data AI

Selain itu, AIQ sangat menekankan mekanisme observabilitas dan transparansi. Ini sangat penting untuk keamanan dan perbaikan berkelanjutan. Tim pengembang dapat memantau aktivitas Agen secara real time dan terus mengoptimalkan sistem berdasarkan data kinerja.

Secara keseluruhan, NVIDA AIQ adalah templat alur kerja Agen standar, menyediakan berbagai kemampuan Agen. Sebagai perangkat lunak konstruksi Agen kelas Dify yang lebih bodoh, sudah mencapai era pemikiran.

Model dasar robot humanoid dirilis, Nvidia ingin menciptakan ekosistem fisik yang lengkap dan tertutup

( 1)Cosmos, memungkinkan kecerdasan bawaan untuk memahami dunia.

Jika fokus pada Agent atau bertaruh sekarang, maka Nvidia benar-benar dapat dianggap sebagai integrasi masa depan dalam penyebaran kecerdasan bawaan.

NVIDIA telah menyusun lengkap tiga elemen model, data, dan kekuatan komputasi ini.

Mari mulai dari modelnya, GTC kali ini merilis versi upgrade dari model dasar Cosmos yang diumumkan pada Januari tahun ini.

Cosmos adalah model yang dapat memprediksi gambar masa depan berdasarkan gambar saat ini. Ini dapat menghasilkan video detail dari data masukan teks/gambar dan memprediksi perkembangan adegan dengan menggabungkan status saat ini (gambar/video) dengan tindakan (sinyal petunjuk/kontrol). Karena ini memerlukan pemahaman terhadap hukum sebab-akibat fisik dunia, Nvidia menyebut Cosmos sebagai Model Dasar Dunia (WFM).

![图片])https://img.gateio.im/social/moments-96eed5a18a4c78811de012d7353fe71d###

Struktur dasar Cosmos

Sementara bagi kecerdasan bertubuh, kemampuan inti adalah memprediksi dampak tindakan mesin terhadap dunia luar. Hanya dengan begitu, model dapat merencanakan tindakan berdasarkan prediksi, sehingga model dunia menjadi model dasar kecerdasan bertubuh. Dengan model prediksi dunia yang mengubah perilaku / waktu-fisik yang mendasar, model ini dapat memenuhi berbagai kebutuhan pendaratan nyata kecerdasan bertubuh yang memiliki bentuk fisik melalui penyetelan dataset yang konkret seperti pengemudi otomatis, tugas robot.

Seluruh model ini terdiri dari tiga bagian kemampuan, bagian pertama Cosmos Transfer mengubah input teks video yang terstruktur menjadi output video yang realistis yang dapat dikendalikan, menghasilkan data sintesis dalam jumlah besar dari teks. Ini memecahkan masalah terbesar kecerdasan berwujud saat ini - masalah kurangnya data. Dan jenis generasi ini adalah generasi yang ‘dapat dikendalikan’, yang berarti pengguna dapat menentukan parameter tertentu (seperti kondisi cuaca, atribut objek, dll.), model akan menyesuaikan hasil generasi sesuai, membuat proses generasi data lebih dapat dikendalikan dan terarah. Seluruh proses juga dapat dikombinasikan oleh Ominiverse dan Cosmos.

图片

Cosmos dibangun di atas simulasi realitas Ominiverse

Bagian kedua Cosmos Predict dapat menghasilkan status dunia maya dari input multimodal, mendukung pembuatan beberapa bingkai dan prediksi jalur gerak. Ini berarti, dengan memberikan status awal dan akhir, model dapat menghasilkan proses tengah yang masuk akal. Ini adalah inti dari kemampuan kognitif dan konstruksi dunia fisik.

Bagian ketiga adalah Cosmos Reason, sebuah model yang terbuka dan dapat sepenuhnya disesuaikan, dengan kemampuan persepsi waktu dan ruang, memahami data video melalui berpikir berantai, dan memprediksi hasil interaksi. Ini adalah kemampuan untuk merencanakan dan memprediksi hasil perilaku.

Dengan tumpukan bertahap dari tiga kemampuan ini, Cosmos dapat menciptakan rantai tindakan lengkap mulai dari token gambar dunia nyata + token perintah teks masukan hingga token keluaran tindakan mesin.

Model dasar ini seharusnya memiliki kinerja yang baik. Hanya dalam dua bulan peluncurannya, 1X, Agility Robotics, Figure AI tiga perusahaan terkemuka telah mulai menggunakannya. Meskipun tidak unggul dalam model bahasa besar, namun kecerdasan buatan Nvidia memang berada di antara yang terdepan.

( 2)Isaac GR00T N1, model dasar robot manusia pertama di dunia

Dengan Cosmos, Nvidia secara alami menggunakan kerangka kerja ini untuk menyesuaikan model dasar Isaac GR00T N1 yang khusus untuk robot humanoid.

![图片])https://img.gateio.im/social/moments-03f9b90d7d4337d4b49542337c32cccf###

Isaac GR00T N1的双系统架构

Ini mengadopsi arsitektur dual-system, dengan “sistem 1” yang responsif cepat dan “sistem 2” yang berpikir mendalam. Penyetelan mikro yang komprehensif memungkinkannya untuk menangani tugas umum seperti grasping, movement, dan operasi lengan ganda. Selain itu, dapat disesuaikan sepenuhnya berdasarkan robot spesifik, pengembang robot dapat melakukan pelatihan lanjutan dengan data nyata atau disintesis. Hal ini membuat model ini sebenarnya dapat diterapkan pada berbagai jenis robot yang berbeda-beda bentuknya.

Misalnya, Nvidia bekerja sama dengan Google DeepMind dan Disney untuk mengembangkan mesin fisika Newton, menggunakan Isaac GR00T N1 sebagai penggerak dasar untuk mengendalikan robot kecil Disney BDX yang sangat jarang ditemui. Hal ini menunjukkan keuniversalitasannya yang kuat. Newton sebagai mesin fisika sangat halus, sehingga cukup untuk membangun sistem imbalan fisik untuk melatih kecerdasan bertenaga di lingkungan virtual.

图片

Hwang In-hun berinteraksi ‘penuh gairah’ dengan robot BDX di atas panggung

( 4)Penghasilan Data Ganda

NVIDIA telah menggabungkan NVIDIA Omniverse dengan model dasar dunia NVIDIA Cosmos Transfer yang disebut sebagai Blueprint Isaac GR00T. Ini dapat menghasilkan sejumlah besar data gerakan sintetis dari sedikit demonstrasi manusia untuk pelatihan operasi robot. Dengan menggunakan komponen Blueprint pertama dari NVIDIA, NVIDIA berhasil menghasilkan 780,000 lintasan sintetis dalam waktu hanya 11 jam, setara dengan data demonstrasi manusia selama 6,500 jam (sekitar 9 bulan). Sebagian besar data Isaac GR00T N1 berasal dari sini, yang meningkatkan kinerja GR00T N1 sebesar 40% dibandingkan hanya menggunakan data nyata.

![图片])https://img.gateio.im/social/moments-4a7651bbdc8a83e0c1d4c39e114d730a###

sistem simulasi kembar

Untuk setiap model, dengan sistem virtual reality Omniverse dan sistem generasi gambar dunia nyata Cosmos Transfer, NVIDIA dapat menyediakan sejumlah besar data berkualitas tinggi. NVIDIA juga mencakup aspek kedua dari model ini.

( 3)Sistem daya komputasi Trinity untuk membangun kekaisaran komputasi robot dari pelatihan hingga ujung

Sejak tahun lalu, Huang telah menekankan konsep ‘tiga komputer’ di GTC: yang pertama adalah DGX, yaitu server GPU besar yang digunakan untuk melatih Kecerdasan Buatan, termasuk Kecerdasan yang Melekat. Yang kedua adalah AGX, platform komputasi terbenam yang dirancang oleh NVIDIA untuk komputasi tepi dan sistem otonom, yang digunakan untuk implementasi Kecerdasan Buatan secara langsung di sisi ujung, seperti inti chip inti untuk kendaraan otonom atau robot. Komputer penghasil data ketiga adalah Omniverse+Cosmos.

![图片])https://img.gateio.im/social/moments-7dba53ee823059c29b6b23fb6e0a86f5###

Tiga Sistem Komputasi Berkecerdasan Tubuh

Sistem ini kembali disorot oleh Lao Huang dalam GTC kali ini, dan dia secara khusus menyebutkan bahwa dengan sistem daya komputasi ini, bisa lahir robot miliaran. Dari pelatihan hingga implementasi, semuanya menggunakan NVIDIA. Bagian ini juga sudah tertutup.

Penutup

Jika dibandingkan secara langsung dengan chip Blackwell generasi sebelumnya, Blackwell Ultra memang tidak sekuat yang sebelumnya dengan sebutan “bom nuklir” atau “kartu truf”, bahkan terasa seperti menggosok pasta gigi.

Namun jika dilihat dari segi perencanaan peta jalan, semuanya termasuk dalam pengaturan Huang Renxun, arsitektur Rubin tahun depan dan tahun depan, dari proses chip hingga transistor, integrasi rak, konektivitas GPU, dan spesifikasi konektivitas lemari akan mengalami peningkatan besar, seperti yang biasa dikatakan orang Cina, “pertunjukan bagus ada di belakang”.

Dibandingkan dengan membangun kue di tingkat perangkat keras untuk memuaskan rasa lapar, dalam dua tahun terakhir NVIDIA bisa dikatakan telah melaju dengan cepat di tingkat perangkat lunak.

Dalam ekosistem perangkat lunak NVIDIA secara menyeluruh, layanan tiga tingkat Meno, Nim, dan Blueprint mengoptimalkan model, menyertakan solusi lengkap untuk membangun aplikasi dari paket model. Ekosistem perusahaan layanan cloud sepenuhnya bertumpu pada kecerdasan buatan NVIDIA. Dengan tambahan Agent, NVIDIA ingin mengambil bagian dalam seluruh infrastruktur kecerdasan buatan, kecuali bagian model dasar.

Bagian perangkat lunak ini, selera Huang Lao, sama besarnya dengan harga saham NVIDIA.

Di pasar robot, ambisi NVIDIA lebih besar. Model, data, kekuatan komputasi, semuanya dipegangnya. Tidak hanya mencapai posisi terdepan dalam model bahasa dasar, tetapi juga mendominasi kecerdasan bawaan. Dengan bayang-bayang yang menggoda, raksasa monopoli kecerdasan bawaan telah muncul di cakrawala.

Di dalamnya, setiap tahapan, setiap produk sesuai dengan pasar potensial senilai ratusan miliar. Pada awalnya, dengan keberuntungan besar dari mantan raja judi yang bertaruh segalanya, Huang Renxun, yang mendapatkan uang dari monopoli GPU, memulai permainan judi yang lebih besar.

Jika dalam permainan judi ini, pasar perangkat lunak atau robot menguasai satu sisi, maka NVIDIA adalah Google era AI, pemain monopoli puncak dalam rantai makanan.

Namun, melihat margin keuntungan GPU NVIDIA, kita masih berharap untuk masa depan seperti ini.(

Untungnya, bagi Huang tua, ini juga adalah permainan judi besar yang belum pernah dia mainkan seumur hidupnya, sulit untuk diprediksi siapa yang menang atau kalah.

GTC7.43%
UOS0.53%
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
  • Hadiah
  • 1
  • Posting ulang
  • Bagikan
Komentar
0/400
Tidak ada komentar
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate
Komunitas
Bahasa Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)