NVLink und NVSwitch lösen ein zentrales Problem moderner KI- und HPC-Systeme: die schnelle Kom­mu­ni­ka­ti­on zwischen mehreren GPUs. Die Tech­no­lo­gien erhöhen den Da­ten­durch­satz deutlich und schaffen die Grundlage für eng ge­kop­pel­te, ska­lier­ba­re GPU-Cluster.

NVLink ist Nvidias pro­prie­tä­re, ka­bel­ge­bun­de­ne Hoch­ge­schwin­dig­keits-Kom­mu­ni­ka­ti­ons­pro­to­koll-Schnitt­stel­le für den direkten Da­ten­aus­tausch zwischen GPUs (und teils auch CPUs). Sie ersetzt bei GPU-zu-GPU-Ver­bin­dun­gen den Umweg über den PCIe-Bus, senkt Kom­mu­ni­ka­ti­ons­eng­päs­se und erhöht den Durchsatz für HPC, KI-Training und spei­cher­in­ten­si­ve Parallel-Workloads in großen Clustern und be­schleu­nig­ten Servern.

Technisch arbeitet NVLink als direkte Punkt-zu-Punkt-Ver­bin­dung mit ge­trenn­ten Sende- und Emp­fangs­pfa­den, also full-duplex, was gleich­zei­ti­ges Senden und Empfangen er­mög­licht. Nvidia be­schreibt NVLink außerdem als ver­lust­ar­me, la­tenz­ar­me Shared-Memory-In­ter­con­nect, also als Ver­bin­dungs­struk­tur, über die GPUs auf Spei­cher­be­rei­che anderer ver­bun­de­ner GPUs besonders schnell zugreifen können. CUDA Peer-Transfers (direkte Da­ten­über­tra­gun­gen zwischen GPUs innerhalb der CUDA-Plattform) werden dabei au­to­ma­tisch über NVLink statt über PCIe, den üblichen Stan­dard­bus im Server, geleitet, sofern die Endpunkte physisch mit­ein­an­der verbunden sind.

Cloud GPU VM
Maximale KI-Per­for­mance mit Ihrer Cloud GPU VM
  • Exklusive NVIDIA H200 GPUs für höchste Re­chen­leis­tung
  • Ga­ran­tier­te Per­for­mance durch voll­stän­dig de­di­zier­te CPU-Kerne
  • 100 % Hosting in Deutsch­land für maximale Da­ten­si­cher­heit und DSGVO-Kon­for­mi­tät
  • Einfaches, kal­ku­lier­ba­res Preis­mo­dell mit festem Preis pro Stunde

NVLink wurde seit Pascal schritt­wei­se ausgebaut. Zuerst stieg die Band­brei­te pro Link, später vor allem die Zahl der Links pro GPU und damit die gesamte bi­di­rek­tio­na­le GPU-Band­brei­te. In der Blackwell-Ära liegt sie bei 1,8 TB/s pro GPU, während Hopper 900 GB/s und A100 600 GB/s erreichen.

Ge­ne­ra­ti­on Typische Ar­chi­tek­tur Max. Band­brei­te pro Link (bi­di­rek­tio­nal) SerDes-Lanes je Richtung Max. Links pro GPU Max. Band­brei­te pro GPU (bi­di­rek­tio­nal)
NVLink 1 Pascal 40 GB/s 8 4 160 GB/s
NVLink 2 Volta 50 GB/s 8 6 300 GB/s
NVLink 3 Ampere 50 GB/s 4 12 600 GB/s
NVLink 4 Hopper 50 GB/s 2 18 900 GB/s
NVLink 5 Blackwell 100 GB/s 2 18 1,8 TB/s
NVLink 6 Rubin 100 GB/s 1 36 3,6 TB/s
  • Max. Band­brei­te pro Link (bi­di­rek­tio­nal) gibt an, wie viele Daten ein einzelner NVLink insgesamt gleich­zei­tig in beide Rich­tun­gen über­tra­gen kann, also beim Senden und Empfangen zusammen.
  • SerDes-Lanes je Richtung zeigt, aus wie vielen phy­si­schen Si­gnalspu­ren pro Richtung ein Link besteht. SerDes steht für Se­ria­li­zer/De­se­ria­li­zer und be­zeich­net die Technik, mit der parallele Da­ten­strö­me in schnelle serielle Signale um­ge­wan­delt und wieder zu­rück­ge­führt werden.
  • Max. Links pro GPU be­schreibt, wie viele einzelne NVLink-Ver­bin­dun­gen eine GPU maximal gleich­zei­tig be­reit­stel­len kann. Je höher dieser Wert ist, desto stärker lässt sich die GPU in ein Multi-GPU-System einbinden.
  • Max. Band­brei­te pro GPU (bi­di­rek­tio­nal) nennt die gesamte theo­re­ti­sche Datenrate aller NVLink-Ver­bin­dun­gen einer GPU zusammen, wiederum in beide Rich­tun­gen. Dieser Wert ist ent­schei­dend für die Ska­lie­rung in KI- und HPC-Systemen.

NVSwitch: Das Rückgrat für Multi-GPU-Systeme

NVLink allein ist zunächst eine Punkt-zu-Punkt-Tech­no­lo­gie. NVSwitch erweitert dieses Prinzip zu einer echten Switch-Fabric. Nvidia be­schreibt NVSwitch als physische Switch-Kom­po­nen­te, die mehrere NVLinks zu­sam­men­führt und All-to-All-GPU-Kom­mu­ni­ka­ti­on mit voller NVLink-Ge­schwin­dig­keit er­mög­licht. In NVSwitch-basierten HGX- und DGX-Systemen entsteht so ein logischer Verbund, der sich für viele Workloads wie eine große, ge­mein­sa­me GPU-Fabric verhält.

Das ist vor allem für KI und High-Per­for­mance-Computing wichtig. Beim Training großer Sprach­mo­del­le oder bei wis­sen­schaft­li­chen Si­mu­la­tio­nen werden Re­chen­auf­ga­ben auf viele GPUs verteilt. Dabei müssen laufend Zwi­schen­er­geb­nis­se, Mo­dell­pa­ra­me­ter und Spei­cher­in­hal­te zwischen den GPUs aus­ge­tauscht werden. In der Praxis entsteht durch NVSwitch ein eng ge­kop­pel­ter GPU-Verbund, der sich für bestimmte Workloads fast wie ein einziges großes Re­chen­sys­tem verhält.

Für moderne DGX- und HGX-Systeme, also für komplette Nvidia-KI-Server und die zugrunde liegenden Multi-GPU-Platt­for­men im Re­chen­zen­trum, ist NVSwitch deshalb ein zentraler Baustein. Erst durch diese Ar­chi­tek­tur lassen sich Multi-GPU-Server so skalieren, dass sie auch bei sehr großen KI-Modellen, etwa im LLM-Training, leis­tungs­fä­hig bleiben.

IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

PCIe bleibt der Standard für den Anschluss von GPUs an CPUs, NICs und andere I/O-Kom­po­nen­ten. Für intensive GPU-zu-GPU-Kom­mu­ni­ka­ti­on ist PCIe aber deutlich weniger geeignet als NVLink.

Die wich­tigs­ten Vorteile von NVLink gegenüber einem PCIe-zen­trier­ten Design:

  • Mehr Durchsatz pro GPU: H100 erreicht 900 GB/s bi­di­rek­tio­nal über 18 Links, Blackwell 1,8 TB/s. PCIe Gen5 x16 liegt bei 126 GB/s bi­di­rek­tio­nal.
  • Geringere und besser planbare Latenzen: NVLink nutzt de­di­zier­te Punkt-zu-Punkt-Ver­bin­dun­gen mit Full-Duplex-Über­tra­gung und vermeidet bei GPU-zu-GPU-Transfers viele Umwege über Host- und I/O-Struk­tu­ren. Das ist besonders bei syn­chro­ni­sa­ti­ons­in­ten­si­ven Workloads wie ver­teil­tem LLM-Training ein Vorteil.
  • Direkter Peer-Zugriff auf ent­fern­ten GPU-Speicher: Nvidia be­schreibt NVLink als Shared-Memory-In­ter­con­nect. Peer Memory kann per Loads, Stores und Atomics adres­siert werden, statt Daten erst über Host-Speicher zu bewegen.
  • Weniger CPU-Umwege: CUDA routet Transfers zwischen NVLink-End­punk­ten au­to­ma­tisch über NVLink und nicht über PCIe. Das senkt Overhead und entlastet den Host-Pfad.
  • Bessere Vor­aus­set­zun­gen für Memory Pooling und Unified Memory: NVLink macht den HBM mehrerer GPUs nicht au­to­ma­tisch zu einem einzigen phy­si­schen Speicher, er­leich­tert aber den schnellen Zugriff auf Peer Memory und ver­bes­sert damit die Vor­aus­set­zun­gen für spei­cher­grö­ße­re Multi-GPU-Workloads sowie für Unified-Memory-nahe Spei­cher­zu­grif­fe über mehrere Be­schleu­ni­ger hinweg.
  • Ska­lie­rung per Switch-Fabric statt reinem I/O-Baum: NVSwitch verbindet mehrere NVLinks zu einer All-to-All-Kom­mu­ni­ka­ti­on auf Fabric-Ebene. PCIe ist dafür nicht ausgelegt.

To­po­lo­gien und Ska­lie­rung in DGX- und HGX-Systemen

In DGX- und HGX-Systemen, also in kom­plet­ten Nvidia-KI-Servern und den zugrunde liegenden Multi-GPU-Platt­for­men, zeigt sich der prak­ti­sche Nutzen von NVLink und NVSwitch besonders deutlich. Ent­schei­dend ist dabei nicht nur die Band­brei­te einzelner Ver­bin­dun­gen, sondern vor allem die Topologie, also die Art, wie GPUs innerhalb eines Systems oder über mehrere Systeme hinweg mit­ein­an­der verbunden sind.

Typische To­po­lo­gien im Überblick:

  • Direkte GPU-Ver­bin­dun­gen: In frühen NVLink-Systemen waren GPUs über feste Punkt-zu-Punkt-Ver­bin­dun­gen mit­ein­an­der gekoppelt. Das be­schleu­nig­te den Da­ten­aus­tausch bereits deutlich, aber nicht jede GPU konnte gleich effizient mit jeder anderen kom­mu­ni­zie­ren.
  • NVSwitch-Fabric innerhalb eines Servers: Mit NVSwitch entsteht ein ge­mein­sa­mer Ver­bin­dungs­ver­bund, in dem viele GPUs gleich­zei­tig und ohne größere Umwege Daten aus­tau­schen können. Das ist vor allem für Trainings-Workloads wichtig, bei denen laufend In­for­ma­tio­nen zwischen allen GPUs syn­chro­ni­siert werden müssen.
  • Große NVLink-Domänen auf Rack-Ebene: In neueren Systemen wird dieses Prinzip über einzelne Server hinaus erweitert. Mehrere GPU-Einheiten lassen sich zu einer größeren NVLink-Domain zu­sam­men­fas­sen, damit auch sehr große KI-Modelle eng gekoppelt ver­ar­bei­tet werden können.

Für die Praxis ist diese Ent­wick­lung vor allem deshalb relevant, weil mit der Topologie auch die Ska­lie­rungs­mög­lich­kei­ten wachsen. Je besser die GPUs verbunden sind, desto leichter lassen sich große Modelle auf viele Be­schleu­ni­ger verteilen.

Zum Hauptmenü