Nvidia GTC conference speech by Jensen Huang: Believes that Bilgi İşlem Gücü never sleeps

Yazar: Su Yang, Hao Boyang; Kaynak: Tencent Technology

Huang Renxun and his NVIDIA, who are the ‘shoveler’ of the AI era, always believe that computing power never sleeps.

图片

Hwang In-hyun, GTC konuşmasında, hesaplama gücü talebinin %100 arttığını iddia etti.

Bugünkü GTC konferansında, Huang Renxun yeni Blackwell Ultra GPU’yu ve buna dayalı olarak türetilen çıkarım ve ajan için sunucu SKU’sunu tanıttı, ayrıca Blackwell mimarisine dayalı RTX ailesini de içeriyordu. Tüm bunlar hash gücü ile ilgili olsa da, önemli olan bir sonraki adım, sürekli olarak artan hash gücünü nasıl makul ve etkili bir şekilde tüketmektir.

Huang Renxun’a göre, AGI’ye ulaşmak için hesaplama gücüne, donanımlı zeki robotlar için hesaplama gücüne, Omniverse ve dünya modelini oluşturmak için sürekli bir hesaplama gücüne ihtiyaç vardır. Sonunda insanların bir sanal “paralel evren” inşa etmesi için ne kadar hesaplama gücüne ihtiyaçları olduğu konusunda Nvidia bir cevap verdi - geçmişin 100 katı.

Görüşlerini desteklemek için, Huang Renxun, GTC sahnesinde 2024 yılında ABD’nin önde gelen dört bulut tesisinin toplamda 1.3 milyon Hopper mimarili yongasını satın aldığını ortaya koyan bir dizi veri paylaştı. 2025 yılına gelindiğinde, bu veri 3.6 milyon Blackwell GPU’ya yükseldi.

Aşağıda Tencent Technology tarafından derlenen Nvidia GTC 2025 Konferansı’nın bazı temel noktaları bulunmaktadır:

Blackwell ailesi çevrimiçi

1)Yıllık ‘nükleer bomba’ Blackwell Ultra diş macunu sıkma

Nvidia geçen yıl GTC’de Blackwell mimarisini duyurdu ve GB200 yongasını piyasaya sürdü, bu yıl resmi adı hafifçe değiştirildi, önceki söylentilerde bahsedilen GB300 yerine doğrudan Blakwell Ultra olarak adlandırıldı.

Ancak donanım açısından, geçen yılın temelinde yeni bir HBM belleği ile değiştirilmiş olmasıdır. Basitçe söylemek gerekirse, Blackwell Ultra= Blackwell büyük bellek sürümüdür.

Blackwell Ultra, iki TSMC N4P (5nm) işlemi, Blackwell mimari yonga + Grace CPU paketi ile oluşturulmuş ve daha gelişmiş 12 katmanlı HBM3e bellek ile eşleştirilmiş, bellek 288GB’a yükseltilmiş ve bir önceki nesil gibi beşinci nesil NVLink’i destekleyerek 1.8TB/s’ye kadar ara bağlantı bant genişliği sağlayabilir.

图片

NVLink performans parametreleri geçmişte

Depolama tabanlı olarak, Blackwell GPU’nun FP4 hassasiyetli hesaplama gücü 15PetaFLOPS’a ulaşabilir, Dikkat Hızlandırma mekanizması temel alınarak, çıkarsama hızı Hopper mimarisine göre 2.5 kat artırılmıştır.

2)Blackwell Ultra NVL72: AI çıkarım özel kabin

图片

Blackwell Ultra NVL72 resmi fotoğrafı

GB200 NVL72 ile aynı şekilde, NVIDIA bu yıl benzer bir ürün olan Blackwell Ultra NVL72 sunmaktadır. Toplamda 18 hesaplama tepsisinden oluşur, her bir hesaplama tepsisi 4 Blackwell Ultra GPU+2 Grace CPU içerir, toplamda 72 Blackwell Ultra GPU+36 Grace CPU’ya ulaşır, bellek 20TB’a ulaşır, toplam bant genişliği 576TB/s’dir, 9 adet NVLink anahtar tepsisi (18 NVLink anahtar çipi) ve düğüm arası NVLink bant genişliği 130TB/s’tir.

Kabinde 72 adet CX-8 ağı kartı bulunur, 14.4TB/s bant genişliği sunar, Quantum-X800 InfiniBand ve Spectrum-X 800G Ethernet kartları gecikmeyi ve titreşimi azaltabilir, büyük ölçekli AI kümesini destekler. Ayrıca, raf, çok kiracılı ağlar, güvenlik ve veri hızlandırma için entegre edilmiş 18 BlueField-3 DPU içerir.

NVIDIA, bu ürünün “AI çıkarım çağı” için özel olarak tasarlandığını belirtiyor. Uygulama senaryoları, çıkarım tabanlı AI, Agent ve robotlar için kullanılan veri sentezi için fiziksel AI simülasyonu( dahildir. Önceki nesil ürün GB200 NVL72’ye göre AI performansını 1.5 kat artırdı ve Hopper mimarisi ve konumlandırmasıyla aynı olan DGX kabin ürünlerine göre veri merkezlerine %50 daha fazla gelir fırsatı sunabilir.

Resmi bilgilere göre, 6710 milyar parametreli DeepSeek-R1’in çıkarımı, H100 ürünüyle saniyede 100 token’a ulaşabilirken, Blackwell Ultra NVL72 çözümüyle saniyede 1000 token’a ulaşabilir.

Zaman olarak dönüştürüldüğünde, aynı mantık görevi için H100 1.5 dakika koşarken, Blackwell Ultra NVL72 15 saniyede tamamlanabilir.

![图片])https://img.gateio.im/social/moments-ae009b85584d17a96ee0582e943e48ff(

Blackwell Ultra NVL72 ve GB200 NVL72 donanım parametreleri

NVIDIA’nın sağladığı bilgilere göre, Blackwell NVL72 ile ilgili ürünlerin 2025’in ikinci yarısında piyasaya sürülmesi bekleniyor. Müşteriler, sunucu üreticileri, bulut sağlayıcıları ve hash gücü kiralama hizmetleri gibi birkaç büyük kategoriye ayrılıyor:

  • Sunucu Üreticisi

Cisco/Dell/HPE/Lenovo/Supermicro gibi 15 üretici

  • Bulut Fabrikası

AWS/Google Cloud/Azure/Oracle gibi önde gelen platformlar

  • Madencilik Gücü Kiralama Hizmeti Sağlayıcısı

CoreWeave/Lambda/Yotta ve benzeri

) 3) GPU Rubin çipi gerçek ‘nükleer bomba’ önceden duyurdu

NVIDIA’nın yol haritasına göre, GTC2025’in ana sahnesi Blackwell Ultra olacak.

Ancak, Huang Renxun aynı zamanda 2026’da piyasaya sürülecek olan Rubin mimarisine dayalı bir sonraki nesil GPU ve daha güçlü Vera Rubin NVL144 sunucusunu da duyurdu - 72 adet Vera CPU + 144 adet Rubin GPU, 288GB HBM4 bellek kullanan, 13TB/s bellek bant genişliği olan çip, altıncı nesil NVLink ve CX9 ağ kartı ile birlikte.

Bu ürün ne kadar güçlü? FP4 hassasiyetindeki çıkarım gücü 3.6ExaFLOPS’a ulaştı, FP8 hassasiyetindeki eğitim gücü de 1.2ExaFLOPS’a ulaştı ve performansı Blackwell Ultra NVL72’nin 3.3 katıdır.

Eğer yeterli bulmazsanız endişelenmeyin, 2027’de daha güçlü Rubin Ultra NVL576 sunucusu ve FP4 doğrulukta çıkarımda ve FP8 doğrulukta eğitimde sırasıyla 15ExaFLOPS ve 5ExaFLOPS işlem gücü sunacak, Blackwell Ultra NVL72’nin 14 katı.

![图片]###https://img.gateio.im/social/moments-116d07948d787697d1e19a423dc7ace4(

Nvidia resmi olarak sağlanan Rubin Ultra NVL144 ve Rubin Ultra NVL576 parametreleri

) 4)Blackwell Ultra edition DGX Super POD “süper bilgi işlem fabrikası”

Şu anda Blackwell Ultra NVL72’nin gereksinimleri karşılamadığı ancak büyük ölçekli bir yapay zeka kümesi kurmaya ihtiyaç duymayan müşteriler için NVIDIA’nın çözümü, Blackwell Ultra tabanlı, tak-çalıştır DGX Super POD AI süper bilgi işlem fabrikasıdır.

DGX Super POD, bir tak-çalıştır AI süper bilgisayar fabrikası olarak, özellikle üretken AI, AI Ajanı ve fiziksel simülasyon gibi AI senaryoları için tasarlanmıştır. Ön eğitimden sonraki eğitime kadar tüm süreçteki hesaplama gücü genişletme gereksinimlerini kapsar. Equinix, sıvı soğutmalı/hava soğutmalı altyapı desteği sağlayan ilk hizmet sağlayıcıdır.

![图片]###https://img.gateio.im/social/moments-d459d098063a0ff6728108328daffd3f(

Blackwell Ultra tarafından inşa edilen DGX SuperPod

Blackwell Ultra’ya dayalı olarak özel olarak tasarlanmış DGX Super POD iki versiyona ayrılmıştır:

  • DGX SuperPOD with built-in DGX GB300 (1 adet Grace CPU + 2 adet Blackwell Ultra GPU), toplamda 288 adet Grace CPU + 576 adet Blackwell Ultra GPU, 300TB hızlı bellek sağlar, FP4 hassasiyetinde 11.5ExaFLOPS hesaplama gücü sunar
  • DGX SuperPOD içeren DGX B300, bu versiyon Grace CPU yongasını içermez, daha fazla genişleme alanına sahiptir ve hava soğutmalı sistem kullanır, ana uygulama senaryosu genel işletme veri merkezidir

) 5)DGX Spark ve DGX Station

Bu yılın Ocak ayında, Nvidia, CES’te 3000 dolarlık bir fiyatla bir AI PC ürünü olan Project DIGITS’i tanıttı, şimdi onun resmi adı DGX Spark oldu.

Ürün özellikleri açısından, GB10 yongasına sahiptir, FP4 hassasiyet altında hesaplama gücü 1PetaFlops’a ulaşabilir, 128GB LPDDR5X bellek, CX-7 ağ kartı, 4TB NVMe depolama içerir, özel DGX OS işletim sistemine dayalı Linux çalıştırır, Pytorch gibi çerçeveleri destekler ve Nvidia’nın sunduğu bazı temel AI yazılım geliştirme araçları önceden yüklenmiştir, 200 milyar parametreli model çalıştırabilir. Tüm makinenin boyutu Mac mini’ye yakındır, iki adet DGX Spark bağlanabilir ve 400 milyar parametreden fazla model çalıştırabilir.

Biz ona AI PC dediğimiz halde, aslında hala süper bilgisayar kategorisine aittir, bu nedenle tüketici sınıfı ürünler olan RTX gibi ürünlerin içine değil, DGX ürün serisine yerleştirildi.

Ancak, bazı insanlar bu ürünü eleştiriyor, FP4’ün tanıtım performansı düşük, FP16 hassasiyetinde sadece RTX 5070 ile eşleşebiliyor, hatta 250 dolarlık Arc B580’e bile karşılaştırılabiliyor, bu nedenle fiyat performans oranı son derece düşüktür.

![图片]###https://img.gateio.im/social/moments-0ad2286c98bbdacda9a450abd3606e80(

DGX Spark bilgisayar ve DGX Station istasyonu

DGX Spark hariç, NVIDIA ayrıca Blackwell Ultra tabanlı bir yapay zeka istasyonu olan bir AI istasyonu piyasaya sürdü. Bu istasyon, bir Grace CPU ve bir Blackwell Ultra GPU ile donatılmış olup, 784GB birleşik bellek, CX-8 ağ kartı, 20PetaFlops AI hesaplama gücü sunmaktadır (resmi olarak belirtilmemiş olmasına rağmen teorik olarak FP4 doğruluk da sağlar).

) 6)RTX AI PC’yi süpürüyor, ayrıca veri merkezine sıkışıyor

Yukarıda tanıtılanlar, Grace CPU ve Blackwell Ultra GPU’ya dayalı ürün SKU’larıdır ve hepsi kurumsal düzeyde ürünlerdir. Birçok kişinin RTX 4090 gibi ürünlerin AI çıkarımındaki harika kullanımlarına ilgi gösterdiğini düşünerek, NVIDIA bu seferki GTC’de Blackwell ve RTX serisini daha da güçlendirdi ve dizüstü bilgisayarlar, masaüstü bilgisayarlar ve hatta veri merkezleri gibi senaryolara yönelik GDDR7 belleğe sahip bir dizi AI PC ilgili GPU’yu piyasaya sürdü.

  • Masaüstü GPU: RTX PRO 6000 Blackwell Workstation Edition, RTX PRO 6000 Blackwell Max-Q Workstation Edition, RTX PRO 5000 Blackwell, RTX PRO 4500 Blackwell ve RTX PRO 4000 Blackwell
  • Dizüstü Bilgisayar GPU: RTX PRO 5000 Blackwell, RTX PRO 4000 Blackwell, RTX, PRO 3000 Blackwell, RTX PRO 2000 Blackwell, RTX PRO 1000 Blackwell ve RTX PRO 500 Blackwell
  • Veri Merkezi GPU: NVIDIA RTX PRO 6000 Blackwell sunucu sürümü

![图片]###https://img.gateio.im/social/moments-b6c591bdc6c60a8e477fc88631a3b9a0(

NVIDIA’nın kurumsal hesaplama için oluşturduğu AI ‘tam set’

Yukarıdakiler sadece farklı senaryolara yönelik olarak özelleştirilmiş Blackwell Ultra yongasına dayalı SKU’ların bir kısmıdır, iş istasyonundan veri merkezi kümesine kadar, Nvidia bunu kendi “Blackwell Ailesi” olarak adlandırıyor, Çince’de “Blackwell全家桶” olarak çevirilebilir.

NVIDIA Photonics: CPO sistemi üzerinde takım arkadaşının omuzlarında durmak

Fotodiyot entegre modülünün (CPO) kavramı, basitçe anahtar yongalarını ve optik modülleri birlikte kapsüle alarak ışık sinyalinin elektrik sinyaline dönüştürülmesini sağlayan ve ışık sinyalinin iletim performansını tam olarak kullanabilen bir yapıdır.

Daha önce, sektör sürekli olarak NVIDIA’nın CPO ağ anahtar ürünü hakkında konuşuyordu, ancak henüz piyasaya sürülmedi, Huang Renxun da açıklamalarda bulundu - Veri merkezlerinde optik fiber bağlantıların yoğun bir şekilde kullanılmasından dolayı optik ağın gücü hesaplama kaynağının %10’una eşittir, optik bağlantının maliyeti, hesaplama düğümlerinin Scale-Out ağı ve AI performans yoğunluğunu doğrudan etkiler.

![图片])https://img.gateio.im/social/moments-1d701aeb143b1f0cd089570733b1df70(

GTC’de sergilenen iki silikon ışık yarışı çip Quantum-X ve Spectrum-X parametreleri

Bu yıl GTC’nin NVIDIA, Quantum-X silikon fotoniği paketli yonga, Spectrum-X silikon fotoniği paketli yonga ve türetilen üç anahtarlık ürünü piyasaya sürdü: Quantum 3450-LD, Spectrum SN6810 ve Spectrum SN6800.

  • Quantum 3450-LD: 144 adet 800GB/s port, arka plaka bant genişliği 115TB/s, sıvı soğutmalı
  • Spectrum SN6810: 128 adet 800GB/s port, 102.4TB/s backplane bant genişliği, sıvı soğutma
  • Spectrum SN6800: 512 adet 800GB/s port, 409.6TB/s backplane bant genişliği, sıvı soğutma

Yukarıdaki ürünlerin hepsi “NVIDIA Photonics” altında sınıflandırılır; NVIDIA, bu platformun CPO iş ortağı ekosistem iş birliğiyle geliştirildiğini söylüyor. Örneğin, üzerinde bulunan mikro halka modülatörü (MRM), TSMC’nin optik motor optimizasyonu temelinde yüksek güçlü ve yüksek verimli lazer modülasyonunu destekler ve çıkarılabilir optik fiber konektörü kullanır.

İlginç olan, önceki endüstri verilerine göre, TSMC’nin mikro halka modülatörü (MRM), 3nm işlem ve CoWoS gibi gelişmiş paketleme teknolojileri üzerine kurulmuştur.

NVIDIA verilerine göre, Photonics anahtarlama cihazı ile geleneksel anahtarlamaya kıyasla modül entegrasyonu performansı 3.5 kat artırabilir, dağıtım verimliliği de 1.3 kat artabilir ve 10 katından fazla genişleme esnekliği sağlayabilir.

Model Efficiency PK DeepSeek: Yazılım Ekosistemi AI Ajanı Güçlendiriyor

![图片])https://img.gateio.im/social/moments-91bee3beda93d8e9e62f4e3f3f9aa47c(

Huang Renxun çizim AI altyapısının “büyük pasta”

Bu nedenle, bu 2 saatlik GTC’de, Hwang In-hyun toplamda sadece yaklaşık yarım saat yazılım ve somut zeka hakkında konuştu. Bu nedenle, birçok ayrıntı resmi belgelerden eklenmiştir, tamamen sahadan değil.

) 1)Nvidia Dynamo, Nvidia’nın inference alanında inşa ettiği yeni CUDA

Nvidia Dynamo kesinlikle bu yayının yazılım bombasıdır.

Mantık, eğitim ve veri merkezi genelinde hızlandırma için özel olarak geliştirilmiş açık kaynaklı bir yazılımdır. Dynamo’nun performans verileri oldukça etkileyici: Mevcut Hopper mimarisi üzerinde, Dynamo, standart Llama modelinin performansını ikiye katlayabilir. DeepSeek gibi özel çıkarım modelleri için ise NVIDIA Dynamo’nun akıllı çıkarım optimizasyonu, her GPU tarafından üretilen belirteç sayısını 30 katına çıkarabilir.

![图片]###https://img.gateio.im/social/moments-e2048dbf1ea9e5d046fd9fd8bca2a244(

黄仁勋, Dynamo ile Blackwell’i göstererek Hopper’ı 25 kat aşabilir.

Dynamo’nun bu iyileştirmeleri, dağıtımdan büyük ölçüde faydalanmaktadır. Her bir aşamayı (kullanıcı sorgusunu anlama ve en iyi yanıtı oluşturma) farklı GPU’lara atayarak LLM’nin her aşamasının bağımsız olarak optimize edilmesini sağlar, verimliliği artırır ve yanıt süresini hızlandırır.

![图片])https://img.gateio.im/social/moments-380b9fe8c64618f264b3e2a82e3da790(

Dynamo’nun sistem mimarisi

Örneğin, giriş işleme aşamasında, yani ön doldurma aşamasında, Dynamo, kullanıcı girişlerini işlemek için GPU kaynaklarını verimli bir şekilde dağıtabilir. Sistem, kullanıcı sorgularını çoklu GPU gruplarıyla paralel olarak işlemek için GPU kaynaklarını kullanır; GPU’ların işlemi daha yaygın ve daha hızlı olmasını umarız. Dynamo, FP4 modunu kullanarak aynı anda birden fazla GPU’ya çağrı yaparak kullanıcı sorularını “okuma” ve “anlama” işlemlerini paralel olarak gerçekleştirir; bir grup GPU “İkinci Dünya Savaşı” hakkındaki arka plan bilgilerini işlerken, diğer grup “neden” ile ilgili tarihî bilgileri işler, üçüncü grup ise “sonuçların” zaman çizelgesini ve olayları işler. Bu aşama, çok sayıda bilgiye aynı anda erişen birkaç araştırma asistanının çalışması gibi bir şeydir.

Çıktı belirteçlerinin oluşturulmasında, yani kod çözme aşamasında, GPU’nun daha odaklı ve tutarlı olması gerekir. GPU sayısıyla karşılaştırıldığında, bu aşama önceki aşamanın düşünme bilgilerini emmek için daha fazla bant genişliği gerektirir, bu nedenle daha fazla önbellek okuması gerektirir. Dynamo, tutarlı ve verimli yanıt üretimi sağlamak için GPU’lar arası iletişimi ve kaynak tahsisini optimize eder. Bir yandan, belirteç oluşturma verimliliğini en üst düzeye çıkarmak için NVL72 mimarisinin yüksek bant genişliğine sahip NVLink iletişim özelliğinden tam olarak yararlanır. Öte yandan, “Akıllı Yönlendirici”, istekleri ilgili KV) anahtar-değer ( önbelleğe alan GPU’ya yönlendirir, bu da çift hesaplamayı önler ve işlem hızını büyük ölçüde artırır. Çift hesaplamadan kaçınarak, bazı GPU kaynakları serbest bırakılır ve Dynamo bu boşta kalan kaynakları dinamik olarak yeni gelen isteklere tahsis edebilir.

Bu mimari ve Kimi’nin Mooncake mimarisi oldukça benzer, ancak NVIDIA alttaşında daha fazla destek sağladı. Mooncake yaklaşık 5 katına kadar artırabilir, ancak Dynamo’nun çıkarılma konusunda daha belirgin bir artış sağlar.

Örneğin, Dynamo’nun önemli yeniliklerinden birkaçı arasında, ‘GPU Planlayıcı’ yükü dinamik olarak ayarlayarak GPU tahsisini optimize edebilir, ‘Düşük Gecikmeli İletişim Kütüphanesi’ GPU’lar arası veri iletimini optimize ederken, ‘Bellek Yöneticisi’ akıllıca çıkarım verilerini farklı maliyet seviyelerindeki depolama cihazları arasında taşıyabilir, işletme maliyetlerini daha da düşürür. Akıllı yönlendirici ve LLM algılayıcı yönlendirme sistemi, istekleri en uygun GPU’ya yönlendirerek tekrarlayan hesaplamaları azaltır. Bu yetenekler dizisi tüm GPU yüklerinin en iyi duruma getirilmesini sağlar.

Bu yazılım çıkarım sistemini kullanarak büyük ölçekli GPU kümesine verimli bir şekilde genişletebilir ve tek bir AI sorgusunun en fazla 1000 GPU’ya kadar sorunsuz genişletilmesini sağlayabilir, veri merkezi kaynaklarını tam olarak kullanarak.

GPU işletmecileri için, bu iyileştirme maliyeti önemli ölçüde düşürürken, üretkenlik önemli ölçüde artmaktadır. Aynı zamanda, her kullanıcı saniyede daha fazla jeton alır, tepki daha hızlıdır ve kullanıcı deneyimi gelişir.

![图片])https://img.gateio.im/social/moments-f8de7caca1c8cdd058d3b932d7d378a1(

Dynamo kullanarak sunucunun verimlilik ve yanıt hızı arasında altın orantıyı elde edin

CUDA’nın GPU programlamasının temelini oluşturduğu gibi, Dynamo daha yüksek seviyeli bir sistemdir ve büyük ölçekli çıkarım yüklerinin akıllıca dağıtımı ve yönetimine odaklanmaktadır. Dağıtılmış planlama katmanı sürecinde çıkarım optimizasyonundan sorumludur ve uygulama ile altta yatan hesaplama altyapısı arasında yer almaktadır. Ancak CUDA’nın GPU hesaplama alanını kökten değiştirdiği gibi, Dynamo’nun da çıkarım yazılım ve donanım verimliliği için yeni bir paradigmayı başarılı bir şekilde başlatabileceği düşünülmektedir.

Dynamo tamamen açık kaynaklıdır ve PyTorch’tan Tensor RT’ye kadar tüm ana akım çerçeveleri destekler. Açık kaynaklı olması, yine de bir kalesidir. CUDA gibi, sadece NVIDIA’nın GPU’ları için etkilidir ve NVIDIA AI çıkarım yazılım yığınının bir parçasıdır.

Bu yazılım yükseltme ile, NVIDIA Groq gibi özel çıkarım AISC yongalarına karşı savunma inşa etti. Sadece yazılım ve donanım bir arada kullanılarak, çıkarım altyapısını yönlendirebilirsiniz.

) 2)Llama Nemotron yeni modeli etkili gösteriyor, ancak hala DeepSeek’i yenemiyor.

Sunucu kullanımı açısından Dynamo oldukça etkileyici olsa da, model eğitimi konusunda Nvidia’nın hala biraz geride olduğunu söylemek gerek.

NVIDIA, bu GTC’de verimlilik ve doğruluk odaklı yeni bir model olan Llama Nemotron’u tanıttı. Bu model, Llama serisinden türetilmiştir. NVIDIA özel olarak ayarlayarak, orijinal Llama’ya göre daha hafif ve sadece 48B olan bu modeli algoritma iyileştirmeleriyle optimize etti. Ayrıca, o1 benzeri bir çıkarım yeteneğine sahiptir. Claude 3.7 ve Grok 3 ile aynı şekilde, Llama Nemotron modeli, çıkarım yeteneği anahtarını içerir ve kullanıcılar bunu açıp kapatmayı seçebilir. Bu seri, farklı ölçeklerdeki işletme ihtiyaçlarına yönelik olan giriş seviyesi Nano, orta seviye Super ve amiral gemisi Ultra olmak üzere üç kademeye ayrılmıştır.

![图片]###https://img.gateio.im/social/moments-f96380931cf2a144170345b7ec105846(

Llama Nemotron’un belirli verileri

Verimlilik konusunda konuşursak, bu modelin ayarlanmış veri kümesi tamamen NVIDIA tarafından üretilen sentetik verilerden oluşuyor, toplam yaklaşık 60B token. DeepSeek V3’ün 1.3 milyon H100 saatlik tam eğitimine karşılık, bu sadece DeepSeek V3’ün 1/15 parametre hacmine sahip model sadece 36 bin H100 saatlik ayarlamayla oldu. Eğitim verimliliği DeepSeek’ten bir seviye daha düşük.

Çıkarım verimliliği açısından, Llama Nemotron Super 49B modeli önceki nesil modelden çok daha iyi performans gösteriyor ve token verimi Llama 3 70B’nin 5 katına ulaşabiliyor ve tek bir veri merkezi GPU’su altında saniyede 3000’den fazla token’ı işleyebiliyor. Bununla birlikte, DeepSeek Açık Kaynak Günü’nün son gününde yayınlanan verilerde, her bir H800 düğümü, ön popülasyon sırasında yaklaşık 73,7 bin jeton/sn girdi (önbellek isabetleri dahil) veya kod çözme sırasında yaklaşık 14,8 bin jeton/sn çıktı elde etti. İkisi arasındaki boşluk hala açık.

![图片])https://img.gateio.im/social/moments-8378715743f1e60d041a3cd7d7c219de(

Performans açısından, 49B’lik Llama Nemotron Süper, DeepSeek R1 tarafından damıtılmış 70B’lik Llama 70B modelini aşan tüm göstergelerde başarılı oldu. Ancak son zamanlarda Qwen QwQ 32B modeli gibi küçük parametreli yüksek performanslı modellerin sıkça piyasaya sürülmesi göz önüne alındığında, Llama Nemotron Super’ın bu modellerle rekabet etmesinin zor olabileceği tahmin edilmektedir.

En önemlisi, bu model, DeepSeek’in eğitim sürecinde belki de Nvidia’dan daha iyi anladığını kanıtladı.

) 3)Yeni model sadece NVIDIA AI Agent ekosisteminin bir parçasıdır, NVIDA AIQ asıl yemektir

NVIDIA neden bir çıkarım modeli geliştirmek istiyor? Bu, NVIDIA’nın ilgilendiği AI’nın bir sonraki patlama noktası - AI Agent’ı hazırlamak için. OpenAI, Claude ve diğer büyük şirketlerin DeepReasearch, MCP gibi tekniklerle Agent’ın temelini attığından beri, NVIDIA da açıkça Agent döneminin geldiğini düşünüyor.

NVIDA AIQ projesi, NVIDIA’nın bir denemesidir. Bu, Llama Nemotron çıkarım modeline dayalı bir planlayıcı AI Ajanı için hazır bir iş akışı sunar. Bu proje, NVIDIA’nın Blueprint seviyesine aittir, bu da önceden yapılandırılmış bir referans iş akışı seti, bir dizi şablon şablonudur, geliştiricilere NVIDIA’nın teknolojisini ve kütüphanelerini daha kolay entegre etmelerine yardımcı olur. Ve AIQ, NVIDIA’nın sağladığı Ajan şablonudur.

![图片]###https://img.gateio.im/social/moments-97ea77b03ad4a4fe4b1b1fede25596a4(

NVIDA AIQ mimarisi

Manus gibi, dış araçlar arasında ağ arama motoru ve diğer profesyonel AI ajanları entegre eder, bu da ajanın hem arama yapabilmesini hem de çeşitli araçları kullanabilmesini sağlar. Llama Nemotron çıkarım modelinin planlaması aracılığıyla, kullanıcı görevlerini tamamlamak için düşünme ve optimize etme işlemleri yapar. Bunun yanı sıra, çoklu ajanı destekleyen iş akışı yapılandırmasını da destekler.

![图片])https://img.gateio.im/social/moments-075dfe522598ad052ab2907c048fb015(

Bu şablon temel alınarak oluşturulan servicenow sistemi

Manus’tan daha ileri giden şey, kurumsal belgeler için karmaşık bir RAG sistemi içermesidir. Bu sistem, acentenin kullanımı için kurumsal verilerin çıkarılmasını, gömülmesini, vektör depolanmasını, LLM ile işlenene kadar yeniden düzenlenmesini içeren bir dizi adımı içerir.

Üstelik, NVIDIA bir AI veri platformu da başlattı, AI akıl yürütme modelini işletme veri sistemlerine bağladı ve işletme verilerine yönelik bir DeepReasearch oluşturdu. Bu, depolama teknolojisinin büyük bir evrim geçirmesine neden oldu, depolama sisteminin artık sadece veri ambarı olmadığını, aynı zamanda aktif çıkarım ve analiz yeteneklerine sahip zeki bir platform olduğunu gösterdi.

![图片])https://img.gateio.im/social/moments-a39ee6ec030b38226c1811e5d14a2348(

AI Data Platform’un oluşumu

Ayrıca, AIQ gözlemlenebilirlik ve şeffaflık mekanizmasını önemsiyor. Bu, güvenlik ve sonraki iyileştirmeler için çok önemli. Geliştirme ekibi, Ajan’ın faaliyetlerini anlık olarak izleyebilir ve performans verilerine dayalı olarak sistemleri sürekli olarak optimize edebilir.

Genel olarak, NVIDA AIQ standart bir Ajan iş akış şablonudur ve çeşitli Ajan yetenekleri sunar. Mantıklı bir şekilde, akıl yürütme çağına evrimleşen daha basit Dify türü Ajan inşa yazılımıdır.

İnsansı Robot Temel Modeli Yayınlandı NVIDIA, somut ekosistem tam döngü yapmak için

) 1)Cosmos, fiziksel varlıkların dünyayı anlamasını sağlar

Eğer Agent’e odaklanmayı veya şu anda yatırım yapmayı düşünüyorsanız, Nvidia’nın yapay zeka konusundaki düzenlemesi tamamen geleceği birleştirme olarak kabul edilebilir.

Model, veri, hesaplama gücü, bu model üç unsuru NVIDIA tarafından tam olarak düzenlenmiştir.

Öncelikle modelden başlayalım, bu GTC, bu yılın Ocak ayında duyurulan somut zeka temel modeli Cosmos’un yükseltilmiş versiyonunu piyasaya sürdü.

Cosmos, mevcut bir görüntüden gelecekteki bir görüntüyü tahmin edebilen bir modeldir. Metin/görüntü giriş verilerinden ayrıntılı video oluşturabilir ve mevcut durumunu (görüntü/video) ve eylemlerini (ipuçları/kontrol sinyalleri) birleştirerek sahnenin evrimini tahmin edebilir. Bu, dünya fiziksel nedensellik yasalarının anlaşılmasını gerektirdiği için NVIDIA, Cosmos’u Dünya Temel Modeli (WFM) olarak adlandırıyor.

![图片]###https://img.gateio.im/social/moments-96eed5a18a4c78811de012d7353fe71d(

Cosmos’un temel mimarisi

Ancak fiziksel zeka için, bir makinenin davranışlarının dış dünyaya ne tür etkiler yaratacağını tahmin etmek en temel yetenektir. Ancak bu şekilde model, tahminlere dayalı olarak davranışlar planlayabilir, bu nedenle dünya modeli fiziksel zekanın temel modeli haline gelir. Bu temel davranış/zaman-fiziksel dünyanın değişiklikleri için dünya tahmin modeli, belirli veri kümeleriyle, örneğin otonom sürüş, robot görevleri, ayarlanarak, bu model, çeşitli fiziksel formlara sahip fiziksel zekanın gerçek uygulama gereksinimlerini karşılayabilir.

Modelin ilk bölümü olan Cosmos Transfer, yapılandırılmış video metin girişini kontrol edilebilir fotogerçekçi video çıkışına dönüştürür ve hiç yoktan büyük ölçekli sentetik veriler üretir. Bu, günümüzde somutlaşmış zekanın en büyük darboğazını çözüyor - yetersiz veri sorunu. Ayrıca, bu nesil “kontrol edilebilir” bir nesildir, bu da kullanıcının belirli parametreleri (hava koşulları, nesne özellikleri vb.) belirleyebileceği anlamına gelir ve model, üretim sonuçlarını buna göre ayarlayarak veri oluşturma sürecini daha kontrol edilebilir ve hedefli hale getirir. Tüm süreç Ominiverse ve Cosmos tarafından da birleştirilebilir.

![图片])https://img.gateio.im/social/moments-e6b5268dffddd018830e53f9ae2c2515(

Cosmos, Ominiverse üzerinde inşa edilen bir gerçeklik simülasyonudur.

Cosmos Tahminin İkinci Bölümü, çoklu mod girişlerinden sanal dünya durumları oluşturabilir, çoklu kare oluşturmayı ve hareket yörüngelerini tahmin etmeyi destekler. Bu, başlangıç ve bitiş durumu verildiğinde, modelin mantıklı bir ara süreç oluşturabileceği anlamına gelir. Bu, temel fiziksel dünya algılama ve inşa etme yeteneğidir.

Üçüncü bölüm, Cosmos Reason, açık ve tamamen özelleştirilebilir bir model olan zaman ve mekân algılama yeteneğine sahiptir, düşünce zinciriyle video verilerini anlamak ve etkileşim sonuçlarını tahmin etmek için kullanılır. Bu, eylem planlama ve sonuç tahmini yeteneğidir.

Bu üç yetenek aşamalı olarak bir araya geldiğinde, Cosmos gerçek görüntü belirteci + metin komut ipucu belirteci girişinden makine hareket belirteci çıkışına kadar tam bir davranış zinciri yapabilir.

Bu temel modelin gerçekten iyi performans göstermesi gerekiyor. Yalnızca iki ay geçmesine rağmen, 1X, Agility Robotics, Figure AI gibi üç önde gelen şirket kullanmaya başladı. Büyük dil modelleri önde değil, ancak gerçekten bilgisayarlı zeka alanında lider olan NVIDIA birinci sınıfta.

) 2)Isaac GR00T N1, dünyanın ilk insan benzeri robot temel modeli

Cosmos ile birlikte, Nvidia doğal olarak insan tipi robotlar için özel olarak eğitilmiş temel model Isaac GR00T N1’i bu çerçeveye göre ayarladı.

![图片]###https://img.gateio.im/social/moments-03f9b90d7d4337d4b49542337c32cccf(

Isaac GR00T N1’ın çift sistem mimarisi

Çift sistem mimarisi kullanır, hızlı tepki veren ‘Sistem 1’ ve derin düşünen 'Sistem 2’ye sahiptir. Kapsamlı ayarları sayesinde, yakalama, taşıma, çift kol işlemleri gibi genel görevleri işleyebilir. Ayrıca, belirli bir robota göre tamamen özelleştirilebilir ve robot geliştiriciler gerçek veya sentetik verilerle son eğitim yapabilir. Bu, aslında bu modelin çeşitli farklı şekillerdeki robotlara dağıtılabilmesini sağlar.

Örneğin, NVIDIA, Google DeepMind ve Disney’in ortaklaşa geliştirdiği Newton fizik motorunu geliştirmek için Isaac GR00T N1’i bir taban olarak kullandı ve oldukça nadir bir Disney BDX robotunu sürdü. Bu, genel kullanılabilirliğinin ne kadar güçlü olduğunu göstermektedir. Newton, çok ince bir fizik motoru olarak, bu nedenle sanal ortamda bedensel zeka eğitimi için fiziksel ödül sistemini oluşturmak için yeterlidir.

![图片])https://img.gateio.im/social/moments-cb2f7f01e71700f7175d3a81f75d38b9(

Huang Renxun ve BDX robotu sahnede “tutkulu” etkileşim

) 4)Veri oluşturma, iki yönlü yaklaşım

NVIDIA, NVIDIA Omniverse ve yukarıda bahsedilen NVIDIA Cosmos Transfer dünya temel modelini birleştirerek, Isaac GR00T Blueprint’u oluşturdu. Bu, az sayıda insan gösterisinden büyük miktarda sentetik hareket verisi oluşturabilir ve robot operasyon eğitimi için kullanılabilir. NVIDIA, Blueprint’un ilk bileşenlerini kullanarak sadece 11 saatte 780,000 sentetik yol oluşturdu, yaklaşık 6,500 saat (yaklaşık 9 ay) insan gösteri verisi. Isaac GR00T N1’in büyük bir kısmı bu verilerden gelir ve bu veriler, GR00T N1’in performansını sadece gerçek veri kullanmaktan%40 arttırdı.

![图片]###https://img.gateio.im/social/moments-4a7651bbdc8a83e0c1d4c39e114d730a(

İkiz Simülasyon Sistemi

Her model için, Nvidia, Omniverse ve Cosmos Transfer ile büyük miktarda yüksek kaliteli veri sağlayabilmektedir. Nvidia, bu modelin ikinci yönünü de kapsamaktadır.

) 3)Üçlü güç sistemi, eğitimden ucağa robot hesaplama imparatorluğu oluşturmak

Geçen yıldan beri, Lao Huang GTC’de bir ‘üç bilgisayar’ konseptini vurguluyor: biri DGX, yani büyük GPU’lu sunucu, AI eğitimi yapmak için kullanılır, bunlar arasında vücut zekası da vardır. Diğer biri AGX, NVIDIA tarafından kenar hesaplama ve otonom sistemler için tasarlanmış gömülü hesaplama platformudur, AI’ın uç tarafta konuşlandırılmasında kullanılır, örneğin otonom sürüş veya robotun temel çipi olarak. Üçüncüsü veri oluşturma bilgisayarı Omniverse+Cosmos.

![图片]###https://img.gateio.im/social/moments-7dba53ee823059c29b6b23fb6e0a86f5(

Üç kavramsal hesaplama sistemiyle donatılmış yapay zeka

Bu sistem bu GTC’de tekrar Huang tarafından vurgulandı ve bu güç sistemine dayalı olarak milyarlarca robotun ortaya çıkabileceği özellikle belirtildi. Eğitimden dağıtıma, tüm güç NVIDIA tarafından kullanılıyor. Bu kısım da tam bir döngü oluşturdu.

Sonuç

Blackwell Ultra, önceki nesil Blackwell yongalarıyla karşılaştırıldığında, donanım olarak gerçekten ‘atom bombası’, ‘patlayıcı’ gibi sıfatlarla eşleşemiyor, hatta bazı sıkıntılar var gibi hissettiriyor.

Ancak yol haritası planlaması açısından bakarsak, bunlar da Huang Renxun’un düzenlemesi içinde, gelecek yıl, bir sonraki yılın Rubin mimarisi, yonga işlemi, transistör, rafların entegrasyon derecesi, GPU bağlantısı ve kabin bağlantısı gibi özellikler büyük ölçüde artacak, Çinlilerin deyişiyle ‘gerçek olaylar hala önümüzde’.

Donanım düzeyinde pasta yemek için karşılaştırma yapmak, son birkaç yılda Nvidia’nın yazılım açısından çılgınca ilerlediğini söyleyebiliriz.

NVIDIA’nın tüm yazılım ekosistemine genel bir bakış, Meno, Nim, Blueprint üç seviyeli hizmeti model optimizasyonunu, modelin uygulama oluşturma sürecine entegre edilmiş tam yığın çözümü içerir. Bulut hizmetleri şirketinin ekosistem konumu NVIDIA AI ile tamamen örtüşmektedir. Bu yeni eklenen Ajan ile birlikte, AI altyapısı bu pasta içinde, NVIDIA temel model dışındaki tüm bölümleri içermektedir.

Yazılım kısmı, Lao Huang’un iştahı, Nvidia hisse fiyatıyla aynı kadar büyük.

Ancak robot pazarında, NVIDIA’nın daha büyük bir hırsı var. Model, veri, hesaplama gücü üç unsur da ellerinde. Temel dil modelinin önünde olmasalar da, temel bilgi ile donanımlı akıllı cihazlar eksik değil. Belirsiz ama bir donanımlı zeka versiyonu monopol devi artık ufukta belirdi.

Her aşama, her ürün potansiyel olarak bir trilyon dolarlık bir pazarla eşleşiyor. GPU monopolünden kazandığı parayla Huang Renxun, başka bir oyun başlatmaya karar verdi.

Eğer bu bahis oyununda yazılım veya robot pazarı herhangi bir şekilde kazanırsa, o zaman NVIDIA AI çağının Google’ı, besin zincirindeki en üst düzey monopolcü olacaktır.

Ancak Nvidia GPU’nun kar oranına bir göz atalım, bu tür bir gelecekten umutluyuz.

Neyse, bu Huang için hayatında hiç karşılaşmadığı büyük bir kumarhane, kazanç ve kayıp belirsiz.

GTC3.75%
UOS3.54%
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
  • Reward
  • 1
  • Repost
  • Share
Comment
0/400
No comments
  • Pin
Trade Crypto Anywhere Anytime
qrCode
Scan to download Gate App
Community
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)