GPU-Virtualisierung: vGPU, MIG und Passthrough im technischen Vergleich
GPU-Virtualisierung umfasst drei grundlegende Ansätze: Bei GPU-Passthrough wird eine vollständige physische GPU exklusiv einer einzelnen VM zugewiesen. vGPU-Lösungen teilen GPU-Ressourcen dagegen meist zeitlich über Time-Slicing und Scheduler-Mechanismen zwischen mehreren VMs auf. Multi-Instance GPU, kurz MIG, partitioniert unterstützte NVIDIA-GPUs hingegen in feste, voneinander isolierte Hardware-Instanzen.
GPUs als zentrale Rechenressource im Rechenzentrum
Durch KI-Training, Inferenz und GPU-beschleunigtes High-Performance-Computing sind GPUs zu einer zentralen Rechenressource moderner Rechenzentren geworden. Was früher vor allem für Grafik, Rendering oder Spezialanwendungen genutzt wurde, ist heute oft entscheidend für die Leistung ganzer Plattformen.
GPU-Ressourcen effizient in virtuellen Umgebungen bereitzustellen, ist jedoch anspruchsvoller als bei klassischen CPU-Workloads. GPUs arbeiten massiv parallel, verfügen über eigenen schnellen Speicher wie VRAM oder HBM und sind eng über PCIe sowie herstellerspezifische Treiber- und Laufzeitumgebungen in das System eingebunden. Dadurch lassen sie sich nicht ohne Weiteres so flexibel teilen wie CPU-Kerne oder Arbeitsspeicher.
In der Praxis haben sich drei wichtige Ansätze etabliert:
- Exklusives GPU-Passthrough: Eine vollständige physische GPU wird einer einzelnen virtuellen Maschine zugewiesen.
- vGPU-Lösungen: Mehrere virtuelle Maschinen teilen sich eine GPU über Treiber- und Hypervisor-Mechanismen.
- Multi-Instance GPU (MIG): Unterstützte NVIDIA-GPUs werden auf Hardwareebene in voneinander getrennte GPU-Instanzen aufgeteilt.
Diese Verfahren unterscheiden sich vor allem darin, ob Ressourcen zeitlich geteilt oder fest partitioniert werden und wie stark die einzelnen Workloads voneinander isoliert sind.
| Technologie | Isolationsebene | Performance-Overhead | Skalierbarkeit | Hardware-Anforderung |
|---|---|---|---|---|
| GPU-Passthrough / PCIe Device Assignment | Exklusive Zuweisung einer vollständigen physischen GPU an eine einzelne VM | Sehr gering, da die VM direkt auf die GPU zugreift und native Treiber nutzen kann | Niedrig, da die GPU während der Zuweisung nicht gleichzeitig von anderen VMs genutzt werden kann | GPU, Plattform und Hypervisor müssen PCIe-Passthrough bzw. DDA unterstützen |
| vGPU | Logische Isolation über vGPU-Profile, Treiber und Scheduler | Moderat durch Time-Slicing und Scheduling zwischen mehreren VMs | Hoch, da mehrere VMs oder Nutzer dieselbe physische GPU verwenden können | Unterstützte GPU, kompatibler Hypervisor, vGPU-Manager, Gasttreiber und passende Lizenz |
| Multi-Instance GPU (MIG) | Hardware-Isolierung durch feste GPU-Partitionen mit eigenen Compute- und Speicherressourcen | Sehr gering innerhalb der zugewiesenen Instanz, da Ressourcen fest partitioniert sind | Mittel bis hoch, abhängig von GPU-Modell, Profilgrößen und maximaler Instanzanzahl | MIG-fähige NVIDIA-GPU, z. B. ausgewählte Datacenter- oder Professional-GPUs |
- Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
- Garantierte Performance durch vollständig dedizierte CPU-Kerne
- 100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
- Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde
GPU-Passthrough: direkte GPU-Zuweisung an eine VM
Beim GPU-Passthrough wird eine vollständige physische GPU exklusiv einer einzelnen virtuellen Maschine zugewiesen. Die VM erhält damit direkten Zugriff auf die GPU, als wäre sie in einem physischen Server eingebaut.
Je nach Plattform trägt dieses Verfahren unterschiedliche Namen:
- Microsoft Hyper-V: Discrete Device Assignment (DDA)
- VMware vSphere/ESXi: VMDirectPath I/O bzw. PCI-Passthrough
- Linux/KVM: PCI-Passthrough über das VFIO-Framework
Technisch ermöglicht wird dies durch die IOMMU (Input-Output Memory Management Unit), die bei Intel meist als VT-d, bei AMD als AMD-Vi bezeichnet wird. Sie sorgt dafür, dass Speicherzugriffe der GPU korrekt auf den Speicherbereich der VM abgebildet und gegenüber anderen Systembereichen isoliert werden. Die VM kann dadurch den nativen Hersteller-Treiber verwenden, also denselben Treiber, der auch auf einem physischen System zum Einsatz käme.
Vor- und Nachteile von GPU-Passthrough
Der große Vorteil dieses Ansatzes ist die sehr hohe Performance. Da die GPU nicht emuliert oder über eine zusätzliche Abstraktionsschicht geteilt wird, liegt die Leistung je nach Workload sehr nah an der Leistung eines direkt auf physischer Hardware betriebenen Systems.
Der Nachteil ist die fehlende Flexibilität: Eine per Passthrough zugewiesene GPU steht exklusiv einer VM zur Verfügung. Andere VMs können diese GPU währenddessen nicht nutzen, auch dann nicht, wenn die zugewiesene VM nur einen kleinen Teil der Rechen- oder Speicherkapazität benötigt.
Technische Einschränkungen von GPU-Passthrough
Die hohe Performance von GPU-Passthrough geht mit einigen praktischen Einschränkungen einher, die vor allem aus der exklusiven Bindung der GPU an eine einzelne VM entstehen:
- Keine gleichzeitige Ressourcenteilung: Eine physische GPU wird einer VM exklusiv zugeordnet. Freie GPU-Kapazität kann nicht dynamisch an andere VMs weitergegeben werden.
- Geringe Wirtschaftlichkeit bei kleinen Workloads: Für virtuelle Desktops, leichte Inferenz oder andere wenig anspruchsvolle Aufgaben ist eine komplette GPU oft überdimensioniert.
- Eingeschränkte Mobilität der VM: Da die VM direkt an eine konkrete physische GPU gebunden ist, sind Live-Migration, Snapshots, Save/Restore und nahtloses Failover je nach Plattform nicht oder nur stark eingeschränkt möglich. In einigen Cluster-Szenarien ist ein automatischer Neustart auf einem anderen Host möglich, aber keine echte Live-Migration.
- Abhängigkeit von Plattform und IOMMU: Der Host muss PCIe-Passthrough sauber unterstützen. Dazu gehören aktivierte Virtualisierungserweiterungen wie Intel VT-d oder AMD-Vi sowie eine geeignete PCIe-/IOMMU-Topologie. Unter Linux/KVM ist insbesondere relevant, ob die GPU in einer ausreichend isolierten IOMMU-Gruppe liegt.
- Support- und Treiberabhängigkeiten: Nicht jede GPU, jedes Mainboard und jede Hypervisor-Version unterstützt Passthrough zuverlässig. In produktiven Umgebungen sollten daher immer die Hardware-Kompatibilitätslisten und Treibervorgaben des jeweiligen Herstellers geprüft werden.
Virtual GPU (vGPU)
Virtual GPU, kurz vGPU, löst ein zentrales Problem des GPU-Passthrough: Eine physische GPU muss nicht mehr exklusiv einer einzelnen VM zugewiesen werden, sondern kann von mehreren virtuellen Maschinen gemeinsam genutzt werden.
Dafür kommt auf dem Host eine spezielle Virtualisierungskomponente zum Einsatz, zum Beispiel der NVIDIA Virtual GPU Manager. Dieser läuft auf dem jeweiligen Hypervisor, etwa VMware vSphere/ESXi, Linux/KVM oder XenServer, und stellt den VMs virtuelle GPU-Geräte bereit. In der Gast-VM wird anschließend ein passender NVIDIA-vGPU-Treiber installiert.
Bei klassischen vGPU-Konfigurationen basiert die gemeinsame Nutzung vor allem auf Time-Slicing. Die GPU wird also nicht dauerhaft in feste Hardwarebereiche aufgeteilt, sondern ihre Rechen- und Grafik-Engines werden zeitlich zwischen den VMs geteilt. Die einzelnen Workloads laufen dabei in schneller Abfolge nacheinander auf derselben physischen GPU.
Jede VM erhält über ein vGPU-Profil einen definierten Anteil am GPU-Speicher. Solche Profile legen unter anderem fest, wie viel Framebuffer einer VM zur Verfügung steht und für welchen Einsatzzweck das Profil gedacht ist. Beispiele sind:
- Q-Profile für virtuelle Workstations
- B-Profile für virtuelle Desktops
- A-Profile für App-Streaming
- C-Profile für Compute-Workloads
Die Rechenleistung wird bei klassischen vGPU-Profilen dagegen nicht physisch fest abgetrennt, sondern über Scheduler verteilt. NVIDIA unterstützt dafür unter anderem Best Effort, Equal Share und Fixed Share:
- Best Effort erlaubt eine möglichst flexible Auslastung der GPU, kann aber bei stark schwankenden Workloads zu Performance-Unterschieden führen.
- Equal Share und Fixed Share sorgen für eine gleichmäßigere beziehungsweise festere Verteilung der GPU-Zeit.
Vor- und Nachteile von vGPU
Der Vorteil von vGPU liegt in der deutlich besseren Auslastung der Hardware. Mehrere VMs können sich eine teure GPU teilen, statt dass jede VM eine eigene Karte benötigt. Das ist besonders sinnvoll für virtuelle Desktops, CAD-Arbeitsplätze, Rendering-Umgebungen, leichte KI-Inferenz oder andere Workloads, die nicht dauerhaft eine komplette GPU auslasten.
Der Nachteil liegt in der geringeren Hardware-Isolierung gegenüber MIG oder Passthrough. Zwar ist der zugewiesene Framebuffer der einzelnen vGPUs voneinander abgegrenzt, die eigentlichen Rechenressourcen werden aber geteilt. Wenn mehrere VMs gleichzeitig hohe GPU-Last erzeugen, kann es deshalb zu Konkurrenz um Rechenzeit kommen.
Technische Einschränkungen von vGPU
vGPU bietet deutlich mehr Flexibilität bei der gemeinsamen Nutzung einer GPU, bringt dafür aber zusätzlichen Betriebsaufwand und Einschränkungen bei der Performance-Isolierung mit sich:
- Lizenzierung erforderlich: NVIDIA vGPU ist ein lizenzpflichtiges Produkt. Je nach Profil und Einsatzzweck kommen unterschiedliche Lizenzmodelle zum Einsatz, zum Beispiel vWS, vPC, vApps oder NVIDIA AI Enterprise für Compute-Szenarien. Ohne gültige Lizenz wird die Leistung beziehungsweise Funktionalität nach Ablauf einer Frist eingeschränkt.
- Noisy-Neighbor-Effekt möglich: Da die GPU-Rechenressourcen zeitlich geteilt werden, kann eine stark ausgelastete VM die Performance anderer VMs auf derselben GPU beeinflussen. Scheduler wie Equal Share oder Fixed Share können diesen Effekt begrenzen, ersetzen aber keine vollständige Hardware-Partitionierung.
- Kompatible Treiber erforderlich: Der hostseitige vGPU-Manager und der Gasttreiber müssen innerhalb der von NVIDIA definierten Kompatibilitätsbereiche liegen. Eine exakte Versionsgleichheit ist nicht immer erforderlich. Werden sie jedoch unabhängig voneinander aktualisiert, kann es passieren, dass vGPU in den betroffenen VMs nicht mehr korrekt startet.
- Mehr Betriebsaufwand: vGPU erfordert eine abgestimmte Kombination aus unterstützter GPU, Hypervisor-Version, vGPU-Manager, Gast-Treiber, Lizenzserver und Profilkonfiguration. Das macht Betrieb und Updates komplexer als bei einfachem GPU-Passthrough.
- Moderater Scheduling-Overhead: Da GPU-Zeit zwischen mehreren vGPUs geplant und umgeschaltet wird, entsteht zusätzlicher Verwaltungsaufwand. Dieser ist in vielen Szenarien gut vertretbar, kann aber bei besonders latenz- oder performancekritischen Workloads eine Rolle spielen.
- Keine harte physische Isolation wie bei MIG: Klassische vGPU teilt Rechenressourcen logisch über Software und Scheduling. Wer feste, hardwareseitig getrennte GPU-Anteile benötigt, sollte MIG oder MIG-backed vGPU prüfen.
Multi-Instance GPU (MIG)
Multi-Instance GPU, kurz MIG, verfolgt einen anderen Ansatz als klassische vGPU-Modelle mit Time-Slicing. NVIDIA führte Multi-Instance GPU mit der Ampere-Architektur ein, unter anderem mit der A100. Seitdem wurde MIG auf ausgewählte Datacenter- und Professional-GPUs ausgeweitet. Die Technologie ist deshalb vor allem in Rechenzentrumsumgebungen relevant, in denen mehrere KI-, Inferenz- oder HPC-Workloads gleichzeitig auf einer GPU laufen sollen. Statt eine GPU zeitlich zwischen mehreren Workloads aufzuteilen, wird die Hardware in feste Teilbereiche partitioniert. Jede Instanz erhält dadurch einen klar definierten Anteil an Rechenleistung, Speicher und Speicherbandbreite.
Bei neueren Blackwell-GPUs erweitert NVIDIA den Anwendungsbereich: Mit „Universal MIG“ unterstützt die RTX PRO 6000 Blackwell z. B. auch Grafik-Workloads in isolierten MIG-Instanzen. Damit ist MIG auf diesen Modellen nicht mehr ausschließlich auf Compute-, Inferenz- und HPC-Szenarien beschränkt.
Je nach GPU-Modell kann eine physische GPU in mehrere voneinander getrennte GPU-Instanzen aufgeteilt werden. Bei vielen Datacenter-Modellen sind bis zu sieben Instanzen möglich. Jede Instanz erhält fest zugewiesene Hardware-Ressourcen:
- Streaming Multiprocessors
- Speicherbereiche
- Speicherbandbreite
- L2-Cache-Anteile
- Datenpfade durch das Speichersystem
Die Größe einer Instanz wird über vordefinierte Profile festgelegt. Bei einer NVIDIA A100 mit 40 GB Speicher sind zum Beispiel Profile wie 1g.5gb, 2g.10gb oder 7g.40gb möglich. Die erste Angabe beschreibt grob den Anteil an GPU-Rechenressourcen, die zweite den zugewiesenen Speicher. Ein Profil wie 1g.5gb steht also für eine kleine Instanz, während 7g.40gb die gesamte A100 mit 40 GB als eine Instanz nutzt.
Vor- und Nachteile von Multi-Instance GPU
Der zentrale Vorteil von MIG ist die starke Hardware-Isolierung. Da Rechen- und Speicherressourcen fest zugeteilt werden, lassen sich Workloads deutlich besser voneinander trennen als bei rein zeitlicher GPU-Teilung. Eine stark ausgelastete Instanz kann die ihr zugewiesenen Ressourcen vollständig nutzen, soll aber die Speicherbandbreite, den L2-Cache-Anteil und die Rechenressourcen anderer Instanzen nicht verdrängen. Dadurch eignet sich MIG besonders für planbare, mandantenfähige Umgebungen mit mehreren parallelen KI-, Inferenz- oder HPC-Workloads.
MIG kann außerdem mit NVIDIA vGPU kombiniert werden. Bei einer sogenannten MIG-backed vGPU werden die Hardware-Partitionen von MIG in eine virtualisierte Umgebung eingebunden. Dadurch lassen sich die Vorteile fester GPU-Partitionen mit VM-basierten Betriebsmodellen kombinieren.
Technische Einschränkungen von Multi-Instance GPU
MIG verbessert die Isolation und Planbarkeit gegenüber klassischer vGPU deutlich, ist jedoch an bestimmte Hardware, feste Profile und einige architektonische Grenzen gebunden:
- Nur auf bestimmten GPUs verfügbar: MIG wird nicht von jeder NVIDIA-GPU unterstützt. Vor allem Consumer-GPUs und viele ältere Workstation-Karten bieten diese Funktion nicht. Verfügbar ist MIG auf ausgewählten Datacenter- und neueren Professional-GPUs.
- Feste Profilgrößen: Die Aufteilung ist nicht beliebig fein wählbar. Administratoren müssen aus den von NVIDIA vorgesehenen Profilen wählen, zum Beispiel
1g.5gb,2g.10gboder7g.40gbbei der A100 mit 40 GB Speicher. - Begrenzte Anzahl an Instanzen: Je nach GPU sind bis zu sieben Instanzen möglich. Einige MIG-fähige Modelle unterstützen weniger parallele Instanzen.
- Rekonfiguration nur eingeschränkt dynamisch: MIG-Instanzen lassen sich verwalten und neu anlegen, aber Änderungen an der Aufteilung setzen voraus, dass die betroffenen Instanzen nicht aktiv genutzt werden. Das Aktivieren des MIG-Modus kann je nach GPU-Generation und Plattform zusätzlich einen GPU-Reset erfordern.
- Kein Bursting über Profilgrenzen hinweg: Eine MIG-Instanz kann nur die Ressourcen nutzen, die ihrem Profil zugewiesen wurden. Freie Kapazität einer anderen Instanz steht ihr nicht automatisch zur Verfügung.
- Eingeschränkte P2P- und Multi-GPU-Kommunikation: MIG ist auf isolierte GPU-Partitionen ausgelegt. CUDA-IPC über verschiedene GPU-Instanzen hinweg und NCCL werden laut NVIDIA nicht unterstützt. P2P ist nur in engen Grenzen möglich, z. B. mit neueren Treibern zwischen MIG-Instanzen auf derselben GPU. Für Workloads, die NVLink, NVSwitch oder NCCL-basiertes Multi-GPU-Training benötigen, ist MIG daher meist nicht geeignet.
Einsatzszenarien und Entscheidungshilfe
Welche Technologie am besten passt, hängt vor allem von drei Fragen ab:
- Wird die maximale Leistung einer ganzen GPU benötigt?
- Müssen Workloads oder Mandanten zuverlässig voneinander isoliert werden?
- Soll eine GPU möglichst effizient von mehreren VMs oder Nutzern geteilt werden?
Als Faustregel gilt:
- Maximale Leistung für eine einzelne VM: GPU-Passthrough
- Viele parallele Nutzer mit moderatem GPU-Bedarf: vGPU
- Mehrere KI-, Inferenz- oder HPC-Workloads mit planbarer Leistung: MIG oder MIG-backed vGPU
Wann sich GPU-Passthrough eignet
GPU-Passthrough eignet sich besonders dann, wenn eine einzelne VM die volle Leistung einer physischen GPU benötigt. Typische Beispiele sind:
- High-End-Workstations
- GPU-intensives Rendering
- CAD- und CAE-Anwendungen
- Einzelne Trainingsjobs, die eine komplette Karte auslasten
In solchen Fällen steht Performance im Vordergrund, während Sharing keine oder nur eine untergeordnete Rolle spielt.
Der Nachteil: Die GPU ist exklusiv an eine VM gebunden. Dadurch bleibt ungenutzte Kapazität auf dieser GPU ungenutzt, und Funktionen wie Live-Migration oder nahtloses Failover sind je nach Plattform stark eingeschränkt.
Wann sich Virtual GPU eignet
Virtual GPU (vGPU) ist sinnvoll, wenn viele User oder VMs jeweils nur einen Teil der GPU-Leistung benötigen. Das ist häufig der Fall bei:
- Virtuellen Desktops
- Knowledge-Worker-Umgebungen
- Technischen Arbeitsplätzen mit moderatem Grafikbedarf oder leichter KI-Inferenz
vGPU erhöht die Mandantendichte und verbessert die Auslastung teurer GPU-Hardware. Der Vorteil liegt in der Flexibilität: Mehrere VMs können dieselbe physische GPU nutzen. Der Nachteil ist, dass die Rechenressourcen bei klassischen vGPU-Konfigurationen zeitlich geteilt werden. Bei hoher gleichzeitiger Last kann es daher zu Konkurrenz um GPU-Zeit kommen. Scheduler wie Equal Share oder Fixed Share können das abmildern, bieten aber keine vollständige Hardware-Isolation.
Wann sich Multi-Instance GPU eignet
Multi-Instance GPU (MIG) ist vor allem dann interessant, wenn mehrere Workloads auf einer GPU laufen sollen, aber trotzdem feste und planbare Ressourcen benötigen. Typische Einsatzbereiche sind:
- Mandantenfähige KI-Inferenz
- Entwicklungs- und Testumgebungen für mehrere Teams
- Kleinere Trainings-Sandboxes
- Cloud-Angebote mit garantierten GPU-Profilen
MIG partitioniert unterstützte NVIDIA-GPUs auf Hardwareebene. Jede Instanz erhält fest zugewiesene Rechen- und Speicherressourcen. Dadurch lassen sich Workloads besser voneinander trennen als bei klassischem Time-Slicing. Das macht MIG besonders geeignet für Umgebungen, in denen hohe Auslastung und starke Isolation gleichzeitig wichtig sind.
In virtualisierten Umgebungen kann MIG außerdem mit vGPU kombiniert werden. Bei MIG-backed vGPU werden die Hardware-Partitionen von MIG in VMs eingebunden. So lassen sich feste GPU-Profile mit einem virtualisierten Betriebsmodell verbinden.
- Kostengünstige vCPUs und leistungsstarke dedizierte Cores
- Höchste Flexibilität ohne Mindestvertragslaufzeit
- Inklusive 24/7 Experten-Support

