NVIDIA MIG erklärt: Eine GPU in mehrere isolierte Instanzen aufteilen
NVIDIA MIG (Multi-Instance GPU) ist eine Technologie, mit der sich eine einzelne Rechenzentrums-GPU in mehrere voneinander isolierte GPU-Instanzen aufteilen lässt. Jede Instanz erhält eigene Rechen- und Speicherressourcen und kann unabhängig von anderen Workloads genutzt werden. Dadurch lassen sich GPU-Ressourcen deutlich effizienter auslasten, insbesondere bei kleineren KI-, Analyse- oder Inferenz-Anwendungen.
Was ist NVIDIA MIG?
NVIDIA MIG (Multi-Instance GPU) ist ein Hardware-Feature von NVIDIA-Rechenzentrums-GPUs, das eine einzelne physische GPU in mehrere voneinander isolierte GPU-Instanzen aufteilt. Jede Instanz erhält dedizierte Rechenkerne, Speicherbereiche und weitere Hardware-Ressourcen, sodass sie sich wie eine eigenständige GPU verhält.
Im Gegensatz zu klassischen Virtualisierungstechniken erfolgt die Trennung nicht ausschließlich auf Software-Ebene, sondern direkt in der Hardware. Dadurch können mehrere Anwendungen gleichzeitig auf derselben GPU ausgeführt werden, ohne sich gegenseitig zu beeinflussen. Je nach GPU-Modell lassen sich bis zu sieben unabhängige Instanzen erzeugen.
Jede dieser Instanzen verfügt über fest zugewiesene Ressourcen und erhält garantierte Leistung. Das verhindert, dass ein besonders ressourcenhungriger Prozess andere User oder Anwendungen ausbremst. Unternehmen können dadurch GPU-Kapazitäten wesentlich feiner aufteilen und mehreren Teams oder Services bereitstellen.
MIG ist vor allem für KI-Inferenz, Entwicklungsumgebungen, Kubernetes-Plattformen und Multi-Tenant-Rechenzentren interessant. Anstatt eine komplette GPU für einen kleinen Workload zu reservieren, können mehrere Anwendungen dieselbe Hardware effizient gemeinsam nutzen. Das verbessert die Auslastung und reduziert die Kosten pro Workload erheblich.
- Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
- Garantierte Performance durch vollständig dedizierte CPU-Kerne
- 100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
- Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde
Wie funktioniert die Hardware-Isolation von MIG?
MIG unterscheidet sich von vielen anderen GPU-Sharing-Verfahren dadurch, dass die Isolation direkt auf Hardware-Ebene erfolgt. NVIDIA partitioniert dabei zentrale Komponenten der GPU fest zwischen den einzelnen Instanzen. Dadurch entstehen garantierte Ressourcen, die nicht dynamisch mit anderen Workloads geteilt werden müssen.
Das Ziel besteht darin, den sogenannten „Noisy Neighbor“-Effekt zu verhindern. Dieser tritt auf, wenn ein Workload plötzlich große Mengen an Ressourcen beansprucht und dadurch andere Anwendungen ausbremst.
Streaming Multiprocessors (SMs)
Die eigentliche Rechenleistung einer NVIDIA-GPU stammt aus den sogenannten Streaming Multiprocessors (SMs). Diese enthalten unter anderem CUDA-Cores, Tensor Cores und weitere Recheneinheiten.
Bei MIG erhält jede Instanz einen fest definierten Anteil dieser Streaming Multiprocessors. Die Recheneinheiten werden exklusiv zugewiesen und können nicht von anderen Instanzen verwendet werden. Dadurch bleibt die verfügbare Rechenleistung konstant und vorhersehbar.
Ein KI-Modell in einer MIG-Instanz kann daher nicht plötzlich zusätzliche SMs belegen und die Leistung anderer Nutzerinnen und Nutzer beeinträchtigen. Dies ist insbesondere für produktive Umgebungen wichtig, in denen Service-Level-Vereinbarungen eingehalten werden müssen.
Crossbar-Interconnect
Der Crossbar-Interconnect verbindet die verschiedenen Funktionsblöcke innerhalb der GPU miteinander. Über diese Infrastruktur werden Daten zwischen Recheneinheiten und Speicher transportiert.
MIG reserviert auch hier dedizierte Ressourcen für einzelne Instanzen. Dadurch wird verhindert, dass Datenverkehr eines Workloads die Kommunikation anderer Instanzen beeinträchtigt. Selbst wenn eine Anwendung große Datenmengen verarbeitet, bleiben die Kommunikationspfade anderer Instanzen stabil. Die Performance wird dadurch deutlich vorhersehbarer als bei vielen softwarebasierten Virtualisierungslösungen.
Speichercontroller und L2-Cache
Neben den Recheneinheiten spielt auch der Speicherzugriff eine entscheidende Rolle für die Gesamtleistung einer GPU, da viele KI-Workloads nicht durch die verfügbare Rechenleistung, sondern durch die Speicherbandbreite und den Datentransfer begrenzt werden.
MIG weist jeder Instanz eigene Speichercontroller, Cache-Bereiche und HBM-Speicheranteile zu. Dadurch entstehen garantierte Speicherbandbreiten und feste Speicherkapazitäten. Greift ein Workload intensiv auf den Speicher zu, beeinflusst dies andere Instanzen nicht. Gerade bei Inferenz-Services mit vielen parallelen Anfragen sorgt dies für stabile Antwortzeiten und eine zuverlässige Performance.
Welche GPUs unterstützen NVIDIA MIG?
NVIDIA hat MIG ursprünglich mit der Ampere-Architektur eingeführt. Seitdem wurde die Technologie in mehreren Rechenzentrumsgenerationen weiterentwickelt. Je nach GPU-Modell unterscheiden sich die verfügbaren Profile, die maximale Anzahl von Instanzen und die bereitstellbaren Ressourcen.
- NVIDIA A100: Die A100 unterstützt bis zu sieben MIG-Instanzen mit 40 GB und 80 GB HBM-Speicher; typische Profile reichen von kleinen 1g-Instanzen bis hin zur vollständigen Nutzung der GPU durch eine einzelne Instanz.
- NVIDIA A30: Die A30 unterstützt ebenfalls MIG mit bis zu vier Instanzen und eignet sich insbesondere für Inferenz-, HPC- und Virtualisierungs-Workloads mit geringerem Ressourcenbedarf als eine A100.
- NVIDIA H100: Die NVIDIA H100 erweitert das MIG-Konzept für die Hopper-Architektur. Neben höherer Rechenleistung profitieren Anwendende von deutlich mehr Speicherbandbreite.
- NVIDIA H200: Die NVIDIA H200 baut auf Hopper auf und kombiniert MIG mit einer deutlich größeren HBM3e-Speicherkapazität, wodurch größere KI-Modelle wie LLMs und Datensätze verarbeitet werden können.
- NVIDIA B200: Die B200 basiert auf der Blackwell-Architektur; auch hier unterstützt NVIDIA die Aufteilung der GPU in bis zu sieben isolierte Instanzen. Die verfügbaren Profile können bei NVIDIA eingesehen werden.
- NVIDIA GB200: Die GB200 kombiniert Blackwell-GPUs mit Grace-CPUs und unterstützt MIG für die flexible Aufteilung von Ressourcen in großen KI- und HPC-Clustern.
- NVIDIA RTX PRO Blackwell: Mehrere RTX-PRO-Blackwell-Modelle unterstützen ebenfalls MIG, wobei je nach Modell zwei bis vier isolierte GPU-Instanzen erstellt werden können.
NVIDIA hat die MIG-Technologie seit ihrer Einführung auf mehrere GPU-Generationen ausgeweitet. Welche Profile verfügbar sind und wie viele Instanzen erzeugt werden können, hängt vom jeweiligen GPU-Modell und dessen Hardware-Ressourcen ab.
MIG vs. Time-Slicing vs. vGPU
Unternehmen können GPUs auf unterschiedliche Weise mehreren Nutzerinnen und Nutzern oder Anwendungen bereitstellen. Die drei wichtigsten Ansätze sind MIG, Time-Slicing und NVIDIA vGPU. Alle drei Verfahren verfolgen unterschiedliche Ziele und bieten unterschiedliche Grade an Isolation, Performance-Garantien und Flexibilität.
MIG
MIG partitioniert die GPU direkt auf Hardware-Ebene. Jede Instanz erhält dedizierte Rechen- und Speicherressourcen. Dadurch entstehen garantierte Leistungswerte und eine sehr starke Isolation zwischen den Workloads. Besonders geeignet ist MIG für produktive KI-Workloads mit klar definierten Ressourcenanforderungen.
Time-Slicing
Beim Time-Slicing teilen sich mehrere Anwendungen dieselbe GPU zeitlich. Der Scheduler weist den einzelnen Prozessen kurze Zeitfenster zur Nutzung der GPU zu. Die Hardware wird dabei nicht physisch partitioniert. Dadurch können Leistungsschwankungen auftreten, wenn einzelne Workloads besonders viele Ressourcen beanspruchen.
NVIDIA vGPU
NVIDIA vGPU ermöglicht die Virtualisierung von GPUs innerhalb virtueller Maschinen. Die Technologie wird häufig in VDI-, CAD- und Enterprise-Umgebungen eingesetzt. Je nach Konfiguration können Ressourcen gemeinsam genutzt oder teilweise reserviert werden. Die Isolation erfolgt primär über die Virtualisierungsschicht.
Die Methoden im Überblick
| Merkmal | MIG | Time-Slicing | NVIDIA vGPU |
|---|---|---|---|
| Isolation | Hardwarebasiert | Schedulerbasiert | Virtualisierung |
| Garantierte Leistung | Ja | Nein | Teilweise |
| Noisy-Neighbor-Schutz | Sehr hoch | Gering | Mittel |
| Multi-Tenant-Betrieb | Sehr gut | Eingeschränkt | Gut |
| KI-Inferenz | Sehr gut | Gut | Gut |
| Virtuelle Desktops | Eingeschränkt | Eingeschränkt | Sehr gut |
| Ressourcen-Zuweisung | Fest | Dynamisch | Konfigurierbar |
- Kostengünstige vCPUs und leistungsstarke dedizierte Cores
- Höchste Flexibilität ohne Mindestvertragslaufzeit
- Inklusive 24/7 Experten-Support
Wirtschaftliche Vorteile und TCO
Viele KI-Workloads benötigen keine vollständige High-End-GPU. Dennoch wird häufig eine komplette GPU für einen einzelnen Dienst reserviert. Dies führt oft zu einer schlechten Hardwareauslastung.
MIG ermöglicht eine wesentlich feinere Aufteilung vorhandener Ressourcen. Mehrere Inferenzmodelle können parallel auf derselben GPU betrieben werden, ohne dass dafür zusätzliche Hardware angeschafft werden muss. Dadurch steigt die durchschnittliche Auslastung der GPU deutlich.
Besonders bei kleinen und mittelgroßen KI-Modellen lassen sich oft mehrere Services auf einer einzelnen A100- oder H100-GPU konsolidieren. Die Anschaffungs- und Betriebskosten verteilen sich dadurch auf mehrere Anwendungen. Auch in Cloud-Umgebungen können Unternehmen von kleineren GPU-Slices profitieren. Anstatt eine vollständige GPU zu reservieren, wird lediglich die tatsächlich benötigte Instanz genutzt. Dies reduziert die Kosten pro Anwendung und verbessert die Ressourceneffizienz.
Da Stromverbrauch, Kühlung und Rack-Kapazitäten zu den wichtigsten Kostenfaktoren moderner KI-Infrastrukturen gehören, kann eine höhere GPU-Auslastung die Total Cost of Ownership (TCO) deutlich senken.
Typische Einsatzszenarien für NVIDIA MIG
MIG eignet sich besonders für Umgebungen, in denen viele kleinere GPU-Workloads parallel betrieben werden. Die Technologie wird daher häufig in KI-Plattformen, Kubernetes-Clustern und Rechenzentren eingesetzt.
Parallele KI-Inferenz
Viele produktive KI-Anwendungen führen ausschließlich Inferenz durch. Die Modelle beantworten Anfragen, trainieren jedoch nicht aktiv weiter. Solche Workloads nutzen häufig nur einen Bruchteil einer modernen Rechenzentrums-GPU. Mit MIG können mehrere Inferenzmodelle parallel auf derselben Hardware betrieben werden. Jedes Modell erhält garantierte Ressourcen und stabile Antwortzeiten. Dies ist beispielsweise für Chatbots, Suchsysteme, Empfehlungssysteme oder Bildklassifizierung interessant. Unternehmen können dadurch deutlich mehr Modelle pro GPU betreiben.
CI/CD-Pipelines für Machine Learning
Entwicklungs- und Testumgebungen benötigen oft nur zeitweise GPU-Ressourcen. Eine komplette H100 für jeden Entwickler bzw. jede Entwicklerin wäre wirtschaftlich kaum sinnvoll. MIG ermöglicht die Aufteilung einer GPU auf mehrere Teams oder Projekte. Programmierende können Modelle testen, Validierungen durchführen oder neue Versionen evaluieren, ohne andere Nutzerinnen und Nutzer zu beeinflussen. Dadurch lassen sich GPU-Ressourcen wesentlich effizienter nutzen und Entwicklungszyklen beschleunigen.
Multi-Tenant-Kubernetes-Plattformen
Viele Unternehmen betreiben zentrale Kubernetes-Plattformen für unterschiedliche Teams. Dabei greifen zahlreiche Anwendungen gleichzeitig auf GPU-Ressourcen zu. MIG ermöglicht die sichere Aufteilung einer GPU zwischen mehreren Usern. Kubernetes kann die einzelnen MIG-Instanzen wie eigenständige GPUs behandeln und gezielt Workloads zuweisen. Dies vereinfacht das Ressourcenmanagement erheblich und verbessert die Planbarkeit der verfügbaren GPU-Kapazitäten.
Technische Voraussetzungen
Vor der Nutzung von MIG müssen einige technische Voraussetzungen erfüllt sein. Dazu gehören passende Hardware, aktuelle Treiber und kompatible Software-Komponenten.
- NVIDIA-Rechenzentrums-GPU: MIG wird nur von unterstützten Datacenter-GPUs wie A100, H100 oder B200 bereitgestellt.
- Aktuelle NVIDIA-Treiber: Die verwendeten Treiber müssen MIG unterstützen und zur jeweiligen GPU-Generation passen.
- CUDA: Moderne CUDA-Versionen unterstützen den Betrieb und die Verwaltung von MIG-Instanzen.
- Linux-Betriebssystem: Die meisten produktiven MIG-Deployments laufen unter Linux.
- NVIDIA Container Toolkit: Für Docker- und Kubernetes-Umgebungen ermöglicht das Toolkit den Zugriff auf einzelne MIG-Instanzen aus Containern heraus.
- Kubernetes Device Plugin: In Kubernetes vereinfacht das NVIDIA Device Plugin die automatische Bereitstellung von MIG-Ressourcen.
Monitoring und Management
Für den produktiven Einsatz ist eine kontinuierliche Überwachung der GPU-Ressourcen wichtig. NVIDIA stellt dafür den sogenannten Data Center GPU Manager (DCGM) bereit. Das Tool erfasst Leistungsdaten, Speicherbelegung, Temperaturen und weitere Metriken einzelner MIG-Instanzen.
In Kubernetes- und Cloud-Umgebungen werden diese Daten häufig über Prometheus gesammelt. Grafana kann anschließend Dashboards für Auslastung, Speichernutzung und Performance visualisieren. Dadurch lassen sich Engpässe frühzeitig erkennen und Ressourcen besser planen. Besonders in Multi-Tenant-Umgebungen hilft ein zentrales Monitoring dabei, die Auslastung einzelner Instanzen transparent nachzuvollziehen.
Übersicht typischer MIG-Profile
MIG-Profile definieren, wie viele GPU-Ressourcen einer Instanz zugewiesen werden. Die genaue Verfügbarkeit hängt vom jeweiligen GPU-Modell ab. Die folgende Tabelle zeigt typische Profile einer NVIDIA A100 mit 40 GB Speicher.
| MIG-Profil | GPU-Anteil | Speicher |
|---|---|---|
| 1g.5gb | 1/7 GPU | 5 GB |
| 2g.10gb | 2/7 GPU | 10 GB |
| 3g.20gb | 3/7 GPU | 20 GB |
| 4g.20gb | 4/7 GPU | 20 GB |
| 7g.40gb | Vollständige GPU | 40 GB |
Die Tabelle zeigt die Standardprofile der A100 mit 40 GB Speicher. Je nach installiertem Treiber stehen zusätzliche Profile zur Verfügung: 1g.5gb+me (ab Treiber R470) und 1g.10gb (ab Treiber R525). Das Profil 1g.5gb+me reserviert zusätzlich alle verfügbaren Media-Engines (Decoder, Encoder, JPEG, OFA) für die Instanz. Die genaue Liste aller verfügbaren Profile lässt sich jederzeit mit nvidia-smi mig -lgip auf dem jeweiligen System abfragen.
Die genaue Profilstruktur kann sich zwischen A100-, H100- und B200-Systemen unterscheiden. NVIDIA erweitert die verfügbaren Profile regelmäßig mit neuen GPU-Generationen.
NVIDIA MIG aktivieren: Schritt-für-Schritt
Die Aktivierung von MIG erfolgt über das Werkzeug nvidia-smi. Dafür werden Administratorrechte auf dem System benötigt.
Schritt 1: Verfügbare GPUs anzeigen
Prüfen Sie zunächst, welche GPUs im System vorhanden sind.
nvidia-smibashSchritt 2: MIG-Modus aktivieren
Aktivieren Sie anschließend den MIG-Modus.
sudo nvidia-smi -i 0 -mig 1bashDie Zahl 0 steht dabei für die GPU-ID. Nach der Aktivierung kann je nach System ein Neustart der GPU oder des Servers erforderlich sein.
Schritt 3: Status überprüfen
Kontrollieren Sie anschließend den Status.
nvidia-smi -i 0 --query-gpu=pci.bus_id,mig.mode.current --format=csvbashDie Ausgabe sollte für die ausgewählte GPU den Status Enabled anzeigen. Alternativ lässt sich der Status auch über die normale Ausgabe von nvidia-smi prüfen: Dort erscheint der MIG-Modus in der Spalte MIG M..
Schritt 4: Instanzen erzeugen
Im nächsten Schritt erstellen Sie eine passende MIG-Instanz. Das folgende Beispiel erstellt eine „1g.5gb“-Instanz, sofern dieses Profil von der verwendeten GPU unterstützt wird:
sudo nvidia-smi mig -cgi 1g.5gb -CbashAlternativ kann statt des Kurznamens auch die jeweilige Profil-ID verwendet werden. Welche Profile und IDs auf der vorhandenen GPU verfügbar sind, lässt sich mit folgendem Befehl prüfen:
nvidia-smi mig -lgipbashZur Kontrolle der erstellten MIG-Geräte können Sie anschließend diesen Befehl verwenden:
nvidia-smi -LbashDie Ausgabe listet dann die physische GPU und die darunter angelegten MIG-Devices auf.
Schritt 5: Ressourcen zuweisen
Nach der Erstellung erscheinen die Instanzen als eigenständige GPU-Ressourcen. Anwendungen, Container oder Kubernetes-Pods können diese nun gezielt verwenden.
Schritt 6: Monitoring einrichten
Abschließend empfiehlt sich die Integration von DCGM sowie Prometheus und Grafana. Dadurch erhalten Sie Einblick in Auslastung, Speicherverbrauch und Performance jeder einzelnen MIG-Instanz.
Auf Ampere-GPUs bleibt der MIG-Modus nach einem Neustart aktiv, die Instanzen jedoch nicht. Ab der Hopper-Generation (also auch bei Blackwell-GPUs) ist auch der MIG-Modus nicht mehr Neustart-persistent. Für produktive Umgebungen empfiehlt sich daher der Einsatz des NVIDIA MIG Partition Editor (mig-parted). Damit lässt sich die gewünschte MIG-Konfiguration in einer Konfigurationsdatei hinterlegen und über einen systemd-Dienst beim Systemstart automatisch wiederherstellen.
Fazit
NVIDIA MIG ermöglicht die Aufteilung einer einzelnen Rechenzentrums-GPU in mehrere hardwareseitig isolierte GPU-Instanzen. Durch die hardwarebasierte Partitionierung erhalten Anwendungen garantierte Rechen- und Speicherressourcen, ohne sich gegenseitig zu beeinflussen. Besonders für KI-Inferenz, Entwicklungsumgebungen und Kubernetes-Plattformen verbessert MIG die Auslastung teurer GPU-Hardware erheblich. Unternehmen können dadurch mehr Workloads auf derselben Infrastruktur betreiben und gleichzeitig ihre Gesamtbetriebskosten reduzieren.
- Jederzeit vollständige Datenhoheit sowie Datenkontrolle
- Im Einklang mit allen gesetzlichen Regelungen in Deutschland
- Ohne Vendor Lock-in für höchste Flexibilität

