NVLink und NVSwitch: Funktionsweise und Architektur der GPU-Kommunikation
NVLink und NVSwitch lösen ein zentrales Problem moderner KI- und HPC-Systeme: die schnelle Kommunikation zwischen mehreren GPUs. Die Technologien erhöhen den Datendurchsatz deutlich und schaffen die Grundlage für eng gekoppelte, skalierbare GPU-Cluster.
Was ist NVLink?
NVLink ist Nvidias proprietäre, kabelgebundene Hochgeschwindigkeits-Kommunikationsprotokoll-Schnittstelle für den direkten Datenaustausch zwischen GPUs (und teils auch CPUs). Sie ersetzt bei GPU-zu-GPU-Verbindungen den Umweg über den PCIe-Bus, senkt Kommunikationsengpässe und erhöht den Durchsatz für HPC, KI-Training und speicherintensive Parallel-Workloads in großen Clustern und beschleunigten Servern.
Technisch arbeitet NVLink als direkte Punkt-zu-Punkt-Verbindung mit getrennten Sende- und Empfangspfaden, also full-duplex, was gleichzeitiges Senden und Empfangen ermöglicht. Nvidia beschreibt NVLink außerdem als verlustarme, latenzarme Shared-Memory-Interconnect, also als Verbindungsstruktur, über die GPUs auf Speicherbereiche anderer verbundener GPUs besonders schnell zugreifen können. CUDA Peer-Transfers (direkte Datenübertragungen zwischen GPUs innerhalb der CUDA-Plattform) werden dabei automatisch über NVLink statt über PCIe, den üblichen Standardbus im Server, geleitet, sofern die Endpunkte physisch miteinander verbunden sind.
- Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
- Garantierte Performance durch vollständig dedizierte CPU-Kerne
- 100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
- Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde
Die Evolution von NVLink und technische Spezifikationen
NVLink wurde seit Pascal schrittweise ausgebaut. Zuerst stieg die Bandbreite pro Link, später vor allem die Zahl der Links pro GPU und damit die gesamte bidirektionale GPU-Bandbreite. In der Blackwell-Ära liegt sie bei 1,8 TB/s pro GPU, während Hopper 900 GB/s und A100 600 GB/s erreichen.
| Generation | Typische Architektur | Max. Bandbreite pro Link (bidirektional) | SerDes-Lanes je Richtung | Max. Links pro GPU | Max. Bandbreite pro GPU (bidirektional) |
|---|---|---|---|---|---|
| NVLink 1 | Pascal | 40 GB/s | 8 | 4 | 160 GB/s |
| NVLink 2 | Volta | 50 GB/s | 8 | 6 | 300 GB/s |
| NVLink 3 | Ampere | 50 GB/s | 4 | 12 | 600 GB/s |
| NVLink 4 | Hopper | 50 GB/s | 2 | 18 | 900 GB/s |
| NVLink 5 | Blackwell | 100 GB/s | 2 | 18 | 1,8 TB/s |
| NVLink 6 | Rubin | 100 GB/s | 1 | 36 | 3,6 TB/s |
- Max. Bandbreite pro Link (bidirektional) gibt an, wie viele Daten ein einzelner NVLink insgesamt gleichzeitig in beide Richtungen übertragen kann, also beim Senden und Empfangen zusammen.
- SerDes-Lanes je Richtung zeigt, aus wie vielen physischen Signalspuren pro Richtung ein Link besteht. SerDes steht für Serializer/Deserializer und bezeichnet die Technik, mit der parallele Datenströme in schnelle serielle Signale umgewandelt und wieder zurückgeführt werden.
- Max. Links pro GPU beschreibt, wie viele einzelne NVLink-Verbindungen eine GPU maximal gleichzeitig bereitstellen kann. Je höher dieser Wert ist, desto stärker lässt sich die GPU in ein Multi-GPU-System einbinden.
- Max. Bandbreite pro GPU (bidirektional) nennt die gesamte theoretische Datenrate aller NVLink-Verbindungen einer GPU zusammen, wiederum in beide Richtungen. Dieser Wert ist entscheidend für die Skalierung in KI- und HPC-Systemen.
NVSwitch: Das Rückgrat für Multi-GPU-Systeme
NVLink allein ist zunächst eine Punkt-zu-Punkt-Technologie. NVSwitch erweitert dieses Prinzip zu einer echten Switch-Fabric. Nvidia beschreibt NVSwitch als physische Switch-Komponente, die mehrere NVLinks zusammenführt und All-to-All-GPU-Kommunikation mit voller NVLink-Geschwindigkeit ermöglicht. In NVSwitch-basierten HGX- und DGX-Systemen entsteht so ein logischer Verbund, der sich für viele Workloads wie eine große, gemeinsame GPU-Fabric verhält.
Das ist vor allem für KI und High-Performance-Computing wichtig. Beim Training großer Sprachmodelle oder bei wissenschaftlichen Simulationen werden Rechenaufgaben auf viele GPUs verteilt. Dabei müssen laufend Zwischenergebnisse, Modellparameter und Speicherinhalte zwischen den GPUs ausgetauscht werden. In der Praxis entsteht durch NVSwitch ein eng gekoppelter GPU-Verbund, der sich für bestimmte Workloads fast wie ein einziges großes Rechensystem verhält.
Für moderne DGX- und HGX-Systeme, also für komplette Nvidia-KI-Server und die zugrunde liegenden Multi-GPU-Plattformen im Rechenzentrum, ist NVSwitch deshalb ein zentraler Baustein. Erst durch diese Architektur lassen sich Multi-GPU-Server so skalieren, dass sie auch bei sehr großen KI-Modellen, etwa im LLM-Training, leistungsfähig bleiben.
- 100 % DSGVO-konform und sicher in Deutschland gehostet
- Die leistungsstärksten KI-Modelle auf einer Plattform
- Kein Vendor Lock-in durch Open Source
NVLink vs. PCIe: Warum Standardbusse für KI nicht ausreichen
PCIe bleibt der Standard für den Anschluss von GPUs an CPUs, NICs und andere I/O-Komponenten. Für intensive GPU-zu-GPU-Kommunikation ist PCIe aber deutlich weniger geeignet als NVLink.
Die wichtigsten Vorteile von NVLink gegenüber einem PCIe-zentrierten Design:
- Mehr Durchsatz pro GPU: H100 erreicht 900 GB/s bidirektional über 18 Links, Blackwell 1,8 TB/s. PCIe Gen5 x16 liegt bei 126 GB/s bidirektional.
- Geringere und besser planbare Latenzen: NVLink nutzt dedizierte Punkt-zu-Punkt-Verbindungen mit Full-Duplex-Übertragung und vermeidet bei GPU-zu-GPU-Transfers viele Umwege über Host- und I/O-Strukturen. Das ist besonders bei synchronisationsintensiven Workloads wie verteiltem LLM-Training ein Vorteil.
- Direkter Peer-Zugriff auf entfernten GPU-Speicher: Nvidia beschreibt NVLink als Shared-Memory-Interconnect. Peer Memory kann per Loads, Stores und Atomics adressiert werden, statt Daten erst über Host-Speicher zu bewegen.
- Weniger CPU-Umwege: CUDA routet Transfers zwischen NVLink-Endpunkten automatisch über NVLink und nicht über PCIe. Das senkt Overhead und entlastet den Host-Pfad.
- Bessere Voraussetzungen für Memory Pooling und Unified Memory: NVLink macht den HBM mehrerer GPUs nicht automatisch zu einem einzigen physischen Speicher, erleichtert aber den schnellen Zugriff auf Peer Memory und verbessert damit die Voraussetzungen für speichergrößere Multi-GPU-Workloads sowie für Unified-Memory-nahe Speicherzugriffe über mehrere Beschleuniger hinweg.
- Skalierung per Switch-Fabric statt reinem I/O-Baum: NVSwitch verbindet mehrere NVLinks zu einer All-to-All-Kommunikation auf Fabric-Ebene. PCIe ist dafür nicht ausgelegt.
Topologien und Skalierung in DGX- und HGX-Systemen
In DGX- und HGX-Systemen, also in kompletten Nvidia-KI-Servern und den zugrunde liegenden Multi-GPU-Plattformen, zeigt sich der praktische Nutzen von NVLink und NVSwitch besonders deutlich. Entscheidend ist dabei nicht nur die Bandbreite einzelner Verbindungen, sondern vor allem die Topologie, also die Art, wie GPUs innerhalb eines Systems oder über mehrere Systeme hinweg miteinander verbunden sind.
Typische Topologien im Überblick:
- Direkte GPU-Verbindungen: In frühen NVLink-Systemen waren GPUs über feste Punkt-zu-Punkt-Verbindungen miteinander gekoppelt. Das beschleunigte den Datenaustausch bereits deutlich, aber nicht jede GPU konnte gleich effizient mit jeder anderen kommunizieren.
- NVSwitch-Fabric innerhalb eines Servers: Mit NVSwitch entsteht ein gemeinsamer Verbindungsverbund, in dem viele GPUs gleichzeitig und ohne größere Umwege Daten austauschen können. Das ist vor allem für Trainings-Workloads wichtig, bei denen laufend Informationen zwischen allen GPUs synchronisiert werden müssen.
- Große NVLink-Domänen auf Rack-Ebene: In neueren Systemen wird dieses Prinzip über einzelne Server hinaus erweitert. Mehrere GPU-Einheiten lassen sich zu einer größeren NVLink-Domain zusammenfassen, damit auch sehr große KI-Modelle eng gekoppelt verarbeitet werden können.
Für die Praxis ist diese Entwicklung vor allem deshalb relevant, weil mit der Topologie auch die Skalierungsmöglichkeiten wachsen. Je besser die GPUs verbunden sind, desto leichter lassen sich große Modelle auf viele Beschleuniger verteilen.

