NVIDIA HGX-KI-Supercomputer

Die weltweit führende KI-Computing-Plattform.

Speziell entwickelt für KI und HPC

KI, komplexe Simulationen und massive Datensätze erfordern mehrere Grafikprozessoren mit extrem schnellen Verbindungen und einem vollständig beschleunigten Softwarestack. Die KI-Supercomputing-Plattform NVIDIA HGX™ vereint die volle Leistung von NVIDIA Grafikprozessoren, NVLink®, NVIDIA-Netzwerken und vollständig optimiertem KI- und High-Performance-Computing (HPC) Software-Stacks, um die höchste Anwendungsleistung bereitzustellen und die Zeit zum Erhalt von Einblicken so weit wie möglich zu verkürzen.

Unerreichte End-to-End-Plattform für beschleunigtes Computing

Die NVIDIA HGX B200 und HGX B100 integrieren NVIDIA Blackwell Tensor-Core-Grafikprozessoren mit High-Speed-Verbindungen und führen das Rechenzentrum so in ein neues Zeitalter des beschleunigten Computings und der generativen KI. Blackwell-basierte HGX-Systeme sind eine führende beschleunigte Scale-up-Plattform mit bis zu 15-mal mehr Inferenzleistung als die Vorgängergeneration. Sie sind auf die anspruchsvollsten generativen KI-, Datenanalyse- und HPC-Workloads ausgelegt.

NVIDIA HGX umfasst fortschrittliche Netzwerkoptionen mit Geschwindigkeiten von bis zu 400 Gigabit pro Sekunde (Gb/s) und nutzen NVIDIA Quantum-2 InfiniBand und Spectrum™-X Ethernet für höchste KI-Leistung. HGX umfasst außerdem NVIDIA® BlueField®-3-Datenverarbeitungseinheiten (DPUs), die Cloud-Networking, Composable Storage, Zero-Trust-Security und Grafikprozessor-Computing-Elastizität in Hyperscale-KI-Clouds ermöglichen.

HGX Stack

Deep-Learning-Inferenz: Leistung und Vielseitigkeit

Die projizierte Leistung kann Änderungen unterliegen. Token-to-Token-Latenz (TTL) = 50 Millisekunden (ms) in Echtzeit, erste Token-Latenz (FTL) = 5 s, Eingabesequenzlänge = 32.768, Ausgabesequenzlänge = 1.028, 8x Acht-Wege-NVIDIA HGX™ H100 Grafikprozessoren mit Luftkühlung vs. 1x Acht-Wege-HGX B200 mit Luftkühlung, laut Grafikprozessor-Leistungsvergleich​.

Echtzeit-Inferenz für die nächste Generation großer Sprachmodelle

HGX B200 erzielt bei massiven Modellen wie dem GPT-MoE-1.8T eine bis zu 15-mal höhere Inferenzleistung als die vorherige Generation von NVIDIA Hopper™. Die Transformer-Engine der zweiten Generation verwendet individuelle Blackwell Tensor Core-Technologie in Kombination mit TensorRT™-LLM und Nemo™ Framework-Innovationen zur Beschleunigung der Inferenz für  große Sprachmodelle (LLMs) und Mixture-of-Experts(MoE)-Modelle.   

Deep-Learning-Training: Leistung und Skalierbarkeit

Änderungen der prognostizierten Leistung vorbehalten. Leistung von 32.768 GPUs, 4.096 Acht-Wege-HGX H100-Cluster mit Luftkühlung: 400G Infiniband-Netzwerk (IB), 4.096 Acht-Wege-HGX B200-Cluster mit Luftkühlung: 400G IB-Netzwerk.

Trainingsleistung auf höchstem Niveau

Die Transformer Engine der zweiten Generation mit 8-Bit-Gleitkomma (FP8) und neuen Precisions ermöglicht bemerkenswerterweise ein 3-mal schnelleres Training für große Sprachmodelle wie GPT-MoE-1.8T. Dieser Durchbruch wird durch NVLink der fünften Generation mit 1,8 Terabyte pro Sekunde (TB/s) GPU-zu-GPU-Verbindung, InfiniBand-Netzwerke und NVIDIA Magnum IO™ -Software unterstützt. Zusammen sorgen diese für effiziente Skalierbarkeit für Unternehmen und umfangreiche GPU-Computing-Cluster.

Beschleunigung von HGX mit NVIDIA Networking

Das Rechenzentrum ist die Recheneinheit der Zukunft und Netzwerke spielen eine wesentliche Rolle bei der Skalierung der Anwendungsleistung im gesamten Rechenzentrum. In Kombination mit NVIDIA Quantum InfiniBand bietet HGX erstklassige Leistung und Effizienz, die die volle Auslastung der Computing-Ressourcen sicherstellen.

Für KI-Cloud-Rechenzentren, die Ethernet bereitstellen, wird HGX am besten mit der NVIDIA Spectrum-X-Netzwerkplattform verwendet, die die höchste KI-Leistung über Ethernet ermöglicht. Mit NVIDIA Spectrum™-Switches und BlueField-3-DPUs liefert es konsistente, vorhersehbare Ergebnisse für Tausende gleichzeitige KI-Aufgaben in jeder Größenordnung durch optimale Ressourcenauslastung und Leistungsisolierung. Spectrum-X ermöglicht außerdem fortschrittliche Cloud-Mandantenfähigkeit und Zero-Trust-Sicherheit. Als Referenzdesign hat NVIDIA Israel-1 entwickelt, einen Hyperscale-Supercomputer für generative KI mit Dell PowerEdge XE9680-Servern, basierend auf der NVIDIA HGX-Plattform mit acht GPUs, BlueField-3-DPUsund Spectrum-X-Switches.

HGX mit NVIDIA Networking verbinden

  NVIDIA Quantum-2 InfiniBand-Plattform:

Quantum-2-Switch, ConnectX-7-Adapter, BlueField-3-DPU

NVIDIA Spectrum-X Platform:

Spectrum-4 Switch,
BlueField-3 SuperNIC

NVIDIA Spectrum Ethernet Platform:

Spectrum Switch, ConnectX Adapter, BlueField DPU

Deep Learning-Training Optimal Sehr gut Gut
Wissenschaftliche Simulation Optimal Sehr gut Gut
Datenanalysen Optimal Sehr gut Gut
Inferenz für Deep Learning Optimal Sehr gut Gut

Technische Daten zu NVIDIA HGX

NVIDIA HGX ist in einzelnen Hauptplatinen mit vier oder acht H200- oder H100-Grafikprozessoren oder acht Blackwell-Grafikprozessoren erhältlich. Diese leistungsstarken Kombinationen aus Hard- und Software legen den Grundstein für die neuartige KI-Supercomputing-Leistung.

  HGX B200 HGX B100
GPUs HGX B200 8-GPU HGX B100 8-GPU
Formfaktor 8x NVIDIA B200 SXM 8x NVIDIA B100 SXM
FP4 Tensor-Core 144 PFLOPS 112 PFLOPS
FP8/FP6 Tensor-Core 72 PFLOPS 56 PFLOPS
INT8 Tensor Core 72 POPS 56 POPS
FP16/BF16 Tensor-Core 36 PFLOPS 28 PFLOPS
TF32 Tensor Core 18 PFLOPS 14 PFLOPS
FP32 640 TFLOPS 480 TFLOPS
FP64 320 TFLOPS 240 TFLOPS
FP64 Tensor-Core 320 TFLOPS 240 TFLOPS
Arbeitsspeicher Bis zu 1,5 TB Bis zu 1,5 TB
NVIDIA NVLink Fünfte Generation Fünfte Generation
NVIDIA NVSwitch™ Vierte Generation Vierte Generation
NVSwitch-Bandbreite für Verbindungen zwischen GPUs 1,8 TB/s 1,8 TB/s
Gesamte aggregierte Bandbreite 14,4 TB/s 14,4 TB/s
  * HGX H200
  4-GPU 8-GPU
GPUs HGX H200 4-GPU HGX H200 8-GPU
Formfaktor 4x NVIDIA H200 SXM 8x NVIDIA H200 SXM
FP8/FP6 Tensor-Core 16 PFLOPS 32 PFLOPS
INT8 Tensor-Core 16 POPS 32 POPS
FP16/BFLOAT16 Tensor-Core 8 PFLOPS 16 PFLOPS
TF32 Tensor-Core 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor Core 270 TFLOPS 540 TFLOPS
Arbeitsspeicher Bis zu 564 GB Bis zu 1,1 TB
NVLink Vierte Generation Vierte Generation
NVSwitch k. A. Dritte Generation
NVSwitch-Bandbreite für Verbindungen zwischen GPUs k. A. 900GB/s
Gesamte aggregierte Bandbreite 3,6 TB/s 7,2 TB/s
  * HGX H100
  4-GPU 8-GPU
GPUs HGX H100 4-GPU HGX H100 8-GPU
Formfaktor 4x NVIDIA H100 SXM 8x NVIDIA H100 SXM
HPC and AI compute (FP64/TF32/FP16/FP8/INT8)* 268TF/4PF/8PF/16PF/16 POPS 535TF/8PF/16PF/32PF/32 POPS
FP8/FP6 Tensor Core 16 PFLOPS 32 PFLOPS
INT8 Tensor Core 16 POPS 32 POPS
FP16/BFLOAT16 Tensor Core 8 PFLOPS 16 PFLOPS
TF32 Tensor Core 4 PFLOPS 8 PFLOPS
FP32 270 TFLOPS 540 TFLOPS
FP64 140 TFLOPS 270 TFLOPS
FP64 Tensor-Core 270 TFLOPS 540 TFLOPS
Arbeitsspeicher Bis zu 320 GB Bis zu 640 GB
NVLink Vierte Generation Vierte Generation
NVSwitch N/A Third generation
NVLink Switch k. A k. A
NVSwitch-Bandbreite für Verbindungen zwischen GPUs k. A 900GB/s
Gesamte aggregierte Bandbreite 3,6 TB/s 7,2 TB/s

Erfahren Sie mehr über die NVIDIA H200-Tensor-Core-GPU.