Der erste Grafikprozessor mit Tensor Core
Erkenntnisse aus der riesigen Datenflut zu gewinnen, kann ganze Branchen verändern: von der individuellen Krebstherapie über die Unterstützung durch virtuelle persönliche Assistenten bis hin zur Vorhersage des nächsten großen Hurrikans.
Die NVIDIA® V100 Tensor-Recheneinheit ist der fortschrittlichste Grafikprozessor für Rechenzentren, der jemals für KI-Beschleunigung, High Performance Computing (HPC), Datenwissenschaft und Grafik entwickelt wurde. Unterstützt wird er von der NVIDIA Volta-Architektur, ist in der Konfiguration mit 16 und 32 GB verfügbar und bietet die Leistung von bis zu 32 CPUs in einem einzelnen Grafikprozessor. Datenwissenschaftler, Forscher und Ingenieure benötigen jetzt weniger Zeit für die Optimierung der Speichernutzung und haben mehr Zeit für die Entwicklung des nächsten KI-Durchbruchs.
Führen Sie mit Virtual Compute Server(vCS)-Software von NVIDIA KI- und HPC-Workloads in einer virtuellen Umgebung für eine bessere Sicherheit und Verwaltbarkeit aus
ResNet-50-Training, Datensatz: ImageNet2012, BS=256 | NVIDIA V100-Vergleich: NVIDIA DGX-2™ Server, 1X V100 SXM3-32GB, MXNet 1.5.1, container=19.11-PY3, Mixed-Precision, Durchsatz: 1.525 Bilder/Sek. | Intel-Vergleich: Supermicro SYS-1029GQ-TRT, 1 Socket Intel Gold 6240 mit 2 GHz/3,9 Hz Turbo, Tensorflow 0,18, FP32 (nur Precision verfügbar), Durchsatz: 48 Bilder/Sek.
Von der Spracherkennung bis hin zum Trainieren virtueller persönlicher Assistenten und selbständig fahrender Autos – Datenwissenschaftler stellen sich mithilfe von KI immer komplexeren Herausforderungen. Um derartige Probleme zu lösen, müssen Deep-Learning-Modelle mit exponentiell wachsender Komplexität in einem angemessenen Zeitraum trainiert werden.
Mit 640 Tensor-Recheneinheiten ist V100 der weltweit erste Grafikprozessor, der die Grenze von 100 TeraFLOPS (TFLOPS) bei der Deep-Learning-Leistung durchbricht. Die nächste Generation von NVIDIA NVLink™ verbindet mehrere V100-Grafikprozessoren mit bis zu 300 GB/s, um die leistungsstärksten Computing-Server der Welt zu entwickeln. KI-Modelle, die auf früheren Systemen Wochen von Rechenleistungsressourcen verbrauchten, können nun innerhalb weniger Tage trainiert werden. Mit dieser drastischen Reduzierung der Trainingszeit wird nun mit KI eine völlig neue Art von Problemen lösbar sein.
BERT Base Feinabstimmungs-Inferenz, Datensatz: SQuADv1.1, BS=1, sequence lenght=128 | NVIDIA V100-Vergleich: Supermicro SYS-4029GP-TRT, 1x V100-PCIE-16GB, Vorabversions-Container, Mixed-Precision, NVIDIA TensorRT™ 6.0, Durchsatz: 557 Sätze/Sek. | Intel-Vergleich: 1 Socket Intel Gold 6240 mit 2,6 GHz/3,9 Hz Turbo, FP32 (nur Precision verfügbar), OpenVINO MKL-DNN v0.18, Durchsatz: 23,5 Sätze/Sek.
Um uns Zugriff auf die relevantesten Informationen, Services und Produkte zu bieten, haben Hyperscale-Unternehmen damit begonnen, KI einzusetzen. Doch es ist nicht einfach, den Anforderungen der Nutzer jederzeit gerecht zu werden. Das größten Hyperscale-Unternehmen der Welt müsste beispielsweise laut kürzlicher eigener Schätzungen die Kapazität seiner Rechenzentren verdoppeln, wenn jeder Nutzer nur drei Minuten pro Tag seinen Spracherkennungsdienst nutzen würde.
V100 ist auf maximale Leistung in bestehenden Hyperscale-Serverracks ausgelegt. Dank KI-Leistung bietet V100-GPU eine 47-mal höhere Inferenz als CPU-Server. Dieser gewaltige Fortschritt bei Durchsatz und Effizienz bedeutet, dass die Ausweitung von KI-Services sinnvoll ist.
Anwendung (Datensatz): MILC (Apex Medium) und Chroma (szscl21_24_128) | CPU-Server: Intel Xeon Platinum 8280 mit zwei Sockets (CASCADE Lake)
HPC ist eine Säule der modernen Wissenschaft. Von der Wettervorhersage über die Medikamentenentwicklung bis hin zur Entdeckung neuer Energiequellen – Forscher in vielen Bereichen setzen riesige Computersysteme für Simulationen und Prognosen ein. KI erweitert die Möglichkeiten des traditionellen HPC. Denn Forscher sind damit in der Lage, gewaltige Datenmengen für schnelle Erkenntnisse zu analysieren, während anhand von Simulationen alleine keine vollständigen Prognosen realer Entwicklungen möglich sind.
V100 ist auf die Konvergenz von KI und HPC ausgelegt. Sie bietet eine Plattform für HPC-Systeme, die sowohl in der Computational Science für wissenschaftliche Simulationen als auch in der Datenwissenschaft für das Erheben von Datenerkenntnissen von Nutzen sein kann. Durch die Kombination von NVIDIA CUDA®-Recheneinheiten und Tensor-Recheneinheiten innerhalb einer einheitlichen Architektur kann ein einzelner Server mit V100-Grafikprozessoren Hunderte von reinen CPU-Servern für herkömmliche HPC- und KI-Workloads ersetzen. Jeder Forscher und Ingenieur kann sich nun einen KI-Supercomputer leisten, der seine anspruchsvollsten Aufgaben bewältigen kann.
Beste Leistung für Deep Learning.
Höchste Vielseitigkeit für alle Workloads.
DOPPELTE GENAUIGKEIT 7,8 TeraFLOPS
Einfache Genauigkeit 15,7 TeraFLOPS
Deep Learning 125 TeraFLOPS
DOPPELTE GENAUIGKEIT 7 TeraFLOPS
Einfache Genauigkeit 14 TeraFLOPS
Deep Learning 112 TeraFLOPS
DOPPELTE GENAUIGKEIT 8,2 TeraFLOPS
Einfache Genauigkeit 16,4 TeraFLOPS
Deep Learning 130 TeraFLOPS
NVLink 300 GB/s
PCIe 32 GB/s
KAPAZITÄT 32/16 GB HBM2
BANDBREITE 900 GB/s
KAPAZITÄT 32 GB HBM2
BANDBREITE 1134 GB/s
300 WATT
250 WATT
Der schnellste Grafikprozessor der Welt für HPC und Deep Learning
Finden Sie über das NVIDIA-Partnernetz (NPN) einen NVIDIA-Partner für beschleunigtes Computing.