NVLink und NVSwitch: Funktionsweise und Architektur der GPU-Kommunikation

Inhaltsverzeichnis

NVLink und NVSwitch lösen ein zentrales Problem moderner KI- und HPC-Systeme: die schnelle Kommunikation zwischen mehreren GPUs. Die Technologien erhöhen den Datendurchsatz deutlich und schaffen die Grundlage für eng gekoppelte, skalierbare GPU-Cluster.

Was ist NVLink?

NVLink ist Nvidias proprietäre, kabelgebundene Hochgeschwindigkeits-Kommunikationsprotokoll-Schnittstelle für den direkten Datenaustausch zwischen GPUs (und teils auch CPUs). Sie ersetzt bei GPU-zu-GPU-Verbindungen den Umweg über den PCIe-Bus, senkt Kommunikationsengpässe und erhöht den Durchsatz für HPC, KI-Training und speicherintensive Parallel-Workloads in großen Clustern und beschleunigten Servern.

Technisch arbeitet NVLink als direkte Punkt-zu-Punkt-Verbindung mit getrennten Sende- und Empfangspfaden, also full-duplex, was gleichzeitiges Senden und Empfangen ermöglicht. Nvidia beschreibt NVLink außerdem als verlustarme, latenzarme Shared-Memory-Interconnect, also als Verbindungsstruktur, über die GPUs auf Speicherbereiche anderer verbundener GPUs besonders schnell zugreifen können. CUDA Peer-Transfers (direkte Datenübertragungen zwischen GPUs innerhalb der CUDA-Plattform) werden dabei automatisch über NVLink statt über PCIe, den üblichen Standardbus im Server, geleitet, sofern die Endpunkte physisch miteinander verbunden sind.

Cloud GPU VM

Maximale KI-Performance mit Ihrer Cloud GPU VM

Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
Garantierte Performance durch vollständig dedizierte CPU-Kerne
100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde

Die Evolution von NVLink und technische Spezifikationen

NVLink wurde seit Pascal schrittweise ausgebaut. Zuerst stieg die Bandbreite pro Link, später vor allem die Zahl der Links pro GPU und damit die gesamte bidirektionale GPU-Bandbreite. In der Blackwell-Ära liegt sie bei 1,8 TB/s pro GPU, während Hopper 900 GB/s und A100 600 GB/s erreichen.

Generation	Typische Architektur	Max. Bandbreite pro Link (bidirektional)	SerDes-Lanes je Richtung	Max. Links pro GPU	Max. Bandbreite pro GPU (bidirektional)
NVLink 1	Pascal	40 GB/s	8	4	160 GB/s
NVLink 2	Volta	50 GB/s	8	6	300 GB/s
NVLink 3	Ampere	50 GB/s	4	12	600 GB/s
NVLink 4	Hopper	50 GB/s	2	18	900 GB/s
NVLink 5	Blackwell	100 GB/s	2	18	1,8 TB/s
NVLink 6	Rubin	100 GB/s	1	36	3,6 TB/s

Max. Bandbreite pro Link (bidirektional) gibt an, wie viele Daten ein einzelner NVLink insgesamt gleichzeitig in beide Richtungen übertragen kann, also beim Senden und Empfangen zusammen.
SerDes-Lanes je Richtung zeigt, aus wie vielen physischen Signalspuren pro Richtung ein Link besteht. SerDes steht für Serializer/Deserializer und bezeichnet die Technik, mit der parallele Datenströme in schnelle serielle Signale umgewandelt und wieder zurückgeführt werden.
Max. Links pro GPU beschreibt, wie viele einzelne NVLink-Verbindungen eine GPU maximal gleichzeitig bereitstellen kann. Je höher dieser Wert ist, desto stärker lässt sich die GPU in ein Multi-GPU-System einbinden.
Max. Bandbreite pro GPU (bidirektional) nennt die gesamte theoretische Datenrate aller NVLink-Verbindungen einer GPU zusammen, wiederum in beide Richtungen. Dieser Wert ist entscheidend für die Skalierung in KI- und HPC-Systemen.

NVSwitch: Das Rückgrat für Multi-GPU-Systeme

NVLink allein ist zunächst eine Punkt-zu-Punkt-Technologie. NVSwitch erweitert dieses Prinzip zu einer echten Switch-Fabric. Nvidia beschreibt NVSwitch als physische Switch-Komponente, die mehrere NVLinks zusammenführt und All-to-All-GPU-Kommunikation mit voller NVLink-Geschwindigkeit ermöglicht. In NVSwitch-basierten HGX- und DGX-Systemen entsteht so ein logischer Verbund, der sich für viele Workloads wie eine große, gemeinsame GPU-Fabric verhält.

Das ist vor allem für KI und High-Performance-Computing wichtig. Beim Training großer Sprachmodelle oder bei wissenschaftlichen Simulationen werden Rechenaufgaben auf viele GPUs verteilt. Dabei müssen laufend Zwischenergebnisse, Modellparameter und Speicherinhalte zwischen den GPUs ausgetauscht werden. In der Praxis entsteht durch NVSwitch ein eng gekoppelter GPU-Verbund, der sich für bestimmte Workloads fast wie ein einziges großes Rechensystem verhält.

Für moderne DGX- und HGX-Systeme, also für komplette Nvidia-KI-Server und die zugrunde liegenden Multi-GPU-Plattformen im Rechenzentrum, ist NVSwitch deshalb ein zentraler Baustein. Erst durch diese Architektur lassen sich Multi-GPU-Server so skalieren, dass sie auch bei sehr großen KI-Modellen, etwa im LLM-Training, leistungsfähig bleiben.

IONOS AI Model Hub

Erste deutsche, multimodale KI-Plattform

100 % DSGVO-konform und sicher in Deutschland gehostet
Die leistungsstärksten KI-Modelle auf einer Plattform
Kein Vendor Lock-in durch Open Source

NVLink vs. PCIe: Warum Standardbusse für KI nicht ausreichen

PCIe bleibt der Standard für den Anschluss von GPUs an CPUs, NICs und andere I/O-Komponenten. Für intensive GPU-zu-GPU-Kommunikation ist PCIe aber deutlich weniger geeignet als NVLink.

Die wichtigsten Vorteile von NVLink gegenüber einem PCIe-zentrierten Design:

Mehr Durchsatz pro GPU: H100 erreicht 900 GB/s bidirektional über 18 Links, Blackwell 1,8 TB/s. PCIe Gen5 x16 liegt bei 126 GB/s bidirektional.
Geringere und besser planbare Latenzen: NVLink nutzt dedizierte Punkt-zu-Punkt-Verbindungen mit Full-Duplex-Übertragung und vermeidet bei GPU-zu-GPU-Transfers viele Umwege über Host- und I/O-Strukturen. Das ist besonders bei synchronisationsintensiven Workloads wie verteiltem LLM-Training ein Vorteil.
Direkter Peer-Zugriff auf entfernten GPU-Speicher: Nvidia beschreibt NVLink als Shared-Memory-Interconnect. Peer Memory kann per Loads, Stores und Atomics adressiert werden, statt Daten erst über Host-Speicher zu bewegen.
Weniger CPU-Umwege: CUDA routet Transfers zwischen NVLink-Endpunkten automatisch über NVLink und nicht über PCIe. Das senkt Overhead und entlastet den Host-Pfad.
Bessere Voraussetzungen für Memory Pooling und Unified Memory: NVLink macht den HBM mehrerer GPUs nicht automatisch zu einem einzigen physischen Speicher, erleichtert aber den schnellen Zugriff auf Peer Memory und verbessert damit die Voraussetzungen für speichergrößere Multi-GPU-Workloads sowie für Unified-Memory-nahe Speicherzugriffe über mehrere Beschleuniger hinweg.
Skalierung per Switch-Fabric statt reinem I/O-Baum: NVSwitch verbindet mehrere NVLinks zu einer All-to-All-Kommunikation auf Fabric-Ebene. PCIe ist dafür nicht ausgelegt.

Topologien und Skalierung in DGX- und HGX-Systemen

In DGX- und HGX-Systemen, also in kompletten Nvidia-KI-Servern und den zugrunde liegenden Multi-GPU-Plattformen, zeigt sich der praktische Nutzen von NVLink und NVSwitch besonders deutlich. Entscheidend ist dabei nicht nur die Bandbreite einzelner Verbindungen, sondern vor allem die Topologie, also die Art, wie GPUs innerhalb eines Systems oder über mehrere Systeme hinweg miteinander verbunden sind.

Typische Topologien im Überblick:

Direkte GPU-Verbindungen: In frühen NVLink-Systemen waren GPUs über feste Punkt-zu-Punkt-Verbindungen miteinander gekoppelt. Das beschleunigte den Datenaustausch bereits deutlich, aber nicht jede GPU konnte gleich effizient mit jeder anderen kommunizieren.
NVSwitch-Fabric innerhalb eines Servers: Mit NVSwitch entsteht ein gemeinsamer Verbindungsverbund, in dem viele GPUs gleichzeitig und ohne größere Umwege Daten austauschen können. Das ist vor allem für Trainings-Workloads wichtig, bei denen laufend Informationen zwischen allen GPUs synchronisiert werden müssen.
Große NVLink-Domänen auf Rack-Ebene: In neueren Systemen wird dieses Prinzip über einzelne Server hinaus erweitert. Mehrere GPU-Einheiten lassen sich zu einer größeren NVLink-Domain zusammenfassen, damit auch sehr große KI-Modelle eng gekoppelt verarbeitet werden können.

Für die Praxis ist diese Entwicklung vor allem deshalb relevant, weil mit der Topologie auch die Skalierungsmöglichkeiten wachsen. Je besser die GPUs verbunden sind, desto leichter lassen sich große Modelle auf viele Beschleuniger verteilen.

Passende Produkte

Cloud GPU VM

10 Jahre Digital Guide: Eine Erfolgsgeschichte

KI-Telefonassistent: Die Live-Demo

KI-Wissen für Ihren Erfolg

Unser Newsletter bringt Ihnen die wichtigsten Insights rund um KI – verständlich, praxisnah und auf den Punkt.

Was ist eine Cloud GPU?

Cloud GPUs kombinieren Rechenpower mit Flexibilität: Sie liefern GPU-Leistung aus der Cloud für anspruchsvolle Aufgaben wie Machine Learning, Simulationen oder Visualisierung. In diesem Artikel erklären wir die Grundlagen, Leistungsmerkmale, Einsatzgebiete sowie die Vor- und…

GPU Hosting
Lexikon

sakkmesterkeshutterstock

Cloud GPU auswählen: So finden Sie die passende GPU für Ihr Projekt

Welche Cloud GPU passt zu Ihrem Projekt? Dieser Ratgeber erklärt, wofür Cloud GPUs eingesetzt werden, welche Use Cases es gibt und welche Auswahlkriterien in der Praxis entscheidend sind. Sie erfahren, warum VRAM oft limitiert, wie Rechenleistung richtig bewertet wird und wie Sie…

GPU Hosting
Ratgeber

jijomathaidesignersshutterstock

Cloud GPU vs. On-Premise GPU: Die Modelle im Vergleich

Unternehmen stehen vor der Wahl: Cloud GPUs vs. On-Premise GPUs? Cloud GPUs ermöglichen flexible Skalierung ohne große Investitionen. On-Premise GPUs hingegen überzeugen bei dauerhafter Nutzung und strengem Datenschutz. In diesem Vergleichsartikel zeigen wir Ihnen, wie beide…

GPU Hosting
Vergleich

agsandrewshutterstock

Was ist GPU Computing und wie funktioniert es?

GPU Computing beschreibt den Einsatz von Grafikprozessoren für allgemeine Rechenaufgaben jenseits klassischer Grafikdarstellung. Durch ihre Fähigkeit, viele Berechnungen gleichzeitig auszuführen, eignen sich GPUs besonders für daten- und rechenintensive Anwendungen. Im…

GPU Hosting
Lexikon

Connect worldshutterstock

Was sind GPU Server?

Mittlerweile spielen GPU-Server für viele Anwendungen eine zentrale Rolle: Die Fähigkeit, die enorme Rechenleistung der Grafikkarten in Anspruch zu nehmen, hilft in vielen modernen Anwendungsgebieten wie zum Beispiel Machine Learning. Doch was genau ist ein GPU-Server, welche…

GPU Hosting
Lexikon

Ranjit Karmakarshutterstock

Was ist eine Hopper-GPU?

Mit seinen Hopper-GPUs setzt NVIDIA neue Maßstäbe in der Beschleunigung komplexer Workloads. Um maximale Leistung für KI- und HPC-Anwendungen zu bieten, wurde die neuste GPU-Generation mit einer Vielzahl bahnbrechender Innovationen ausgestattet. Wir erläutern, was Hopper-GPUs so…

GPU Hosting
Lexikon

NVLink und NVSwitch: Funk­ti­ons­wei­se und Ar­chi­tek­tur der GPU-Kom­mu­ni­ka­ti­on

Was ist NVLink?

Die Evolution von NVLink und tech­ni­sche Spe­zi­fi­ka­tio­nen

NVSwitch: Das Rückgrat für Multi-GPU-Systeme

NVLink vs. PCIe: Warum Stan­dard­bus­se für KI nicht aus­rei­chen

To­po­lo­gien und Ska­lie­rung in DGX- und HGX-Systemen

NVLink und NVSwitch: Funktionsweise und Architektur der GPU-Kommunikation

Die Evolution von NVLink und technische Spezifikationen

NVLink vs. PCIe: Warum Standardbusse für KI nicht ausreichen

Topologien und Skalierung in DGX- und HGX-Systemen