CPU vs. GPU in der Cloud: Wann sich der Umstieg amortisiert
Die CPU ist auf geringe Latenz bei komplexer serieller Logik optimiert, während die GPU durch massive Parallelisierung einen sehr hohen Datendurchsatz erzielt. Ein Umstieg lohnt sich bei rechenintensiven Workloads, sobald der Zeitvorteil der parallelen Verarbeitung die höheren Instanzkosten und Datentransferlatenzen der GPU-Architektur ökonomisch übertrifft.
- Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
- Garantierte Performance durch vollständig dedizierte CPU-Kerne
- 100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
- Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde
CPU vs. GPU
Eine CPU (Central Processing Unit) ist der klassische Hauptprozessor eines Systems. Sie verarbeitet allgemeine Rechenoperationen, steuert Betriebssysteme, führt Programme aus und optimiert Reaktionszeiten. Cloud-CPUs wie AMD EPYC oder Intel Xeon besitzen im Vergleich zu GPUs wenige, aber sehr leistungsfähige Kerne mit großen Caches und ausgefeilter Sprungvorhersage, der sogenannten Branch Prediction.
Eine GPU (Graphics Processing Unit) wurde ursprünglich für Grafikberechnungen entwickelt. Heute werden GPUs jedoch vor allem für parallele Rechenaufgaben eingesetzt, beispielsweise beim Training von KI-Modellen, bei wissenschaftlichen Simulationen oder bei Videoverarbeitung. GPUs wie die NVIDIA H100 besitzen Tausende kleine Recheneinheiten, die viele ähnliche Operationen gleichzeitig ausführen können.
Der wichtigste Unterschied liegt daher nicht primär in der Taktrate oder der Kernanzahl, sondern in der Architektur. CPUs priorisieren geringe Latenz und Flexibilität. GPUs maximieren dagegen den Datendurchsatz bei parallelen Aufgaben.
GPUs lohnen sich vor allem bei Workloads, die sich in viele unabhängige Teilberechnungen zerlegen lassen. Dazu gehören etwa KI-Training, Simulationen, Batch-Analysen oder Videoverarbeitung. Bei seriellen Aufgaben wie Geschäftslogik, Datenbanktransaktionen oder API-Requests bleiben CPUs meist effizienter.
Architektur: Warum Kerne nicht gleich Kerne sind
CPUs und GPUs unterscheiden sich fundamental im Aufbau ihrer Rechenlogik. Obwohl beide Prozessoren Berechnungen durchführen, optimieren sie unterschiedliche Ziele. Während CPUs schnelle Einzeloperationen priorisieren, konzentrieren sich GPUs auf parallele Massendatenverarbeitung.
SIMD (Single Instruction, Multiple Data)
SIMD beschreibt ein Rechenmodell, bei dem dieselbe Instruktion gleichzeitig auf viele Datenpunkte angewendet wird. GPUs basieren stark auf diesem Prinzip. Wenn beispielsweise Millionen Pixel oder Tensorwerte identisch verarbeitet werden müssen, kann die GPU dieselbe Operation parallel ausführen. Der Vorteil von SIMD liegt im enormen Datendurchsatz. Sobald Berechnungen allerdings stark voneinander abhängen oder viele Verzweigungen enthalten, sinkt die Effizienz deutlich.
Das eignet sich vor allem für Machine Learning, Bildverarbeitung oder wissenschaftliche Simulationen. Viele neuronale Netze bestehen hauptsächlich aus identischen Matrixoperationen, die sich daher perfekt parallelisieren lassen.
CPUs unterstützen ebenfalls SIMD-Erweiterungen wie SSE oder AVX-512. Allerdings ist die Parallelisierung dort deutlich kleiner skaliert. Eine CPU verarbeitet bis zu 16 oder 64 Werte gleichzeitig, während eine GPU Tausende Threads parallel ausführt.
Bei NVIDIA-GPUs wird das Ausführungsmodell häufig präziser als SIMT beschrieben: Viele Threads führen denselben Kernel aus, verarbeiten dabei jedoch unterschiedliche Daten. Wenn Threads innerhalb eines Warps unterschiedliche Ausführungspfade nehmen, sinkt die Effizienz.
MIMD (Multiple Instruction, Multiple Data)
CPUs arbeiten überwiegend nach dem sogenannten MIMD-Prinzip. Dabei können verschiedene Kerne unterschiedliche Instruktionen auf unterschiedlichen Daten ausführen. Dieses Modell ist wesentlich flexibler als SIMD.
Dadurch eignen sich CPUs besonders für komplexe Anwendungen mit vielen Bedingungen, Sprüngen und Abhängigkeiten. Typische Beispiele sind Datenbanken, Webserver oder Geschäftslogik. Eine CPU kann also verschiedene Aufgaben gleichzeitig priorisieren und dynamisch umschalten. GPUs verlieren dagegen Leistung, wenn Threads unterschiedliche Ausführungspfade nehmen. Gerade bei APIs, klassischen Backend-Anwendungen oder Betriebssystemprozessen bleibt die CPU deshalb überlegen.
Instruction Cycles
CPUs investieren enorme Transistorbudgets in die Optimierung einzelner Befehlszyklen. Aktuelle Prozessoren nutzen Out-of-Order-Execution, Speculative Execution und Branch Prediction, um Instruktionen möglichst effizient auszuführen. Dadurch reduzieren CPUs Wartezeiten erheblich, sodass bei seriellen Aufgaben die Leistung massiv gesteigert wird.
GPUs verfolgen einen anderen Ansatz. Statt einzelne Befehle maximal zu optimieren, akzeptieren sie höhere Latenzen und kompensieren diese durch extreme Parallelität. So wirken GPUs bei schlecht parallelisierbaren Aufgaben oft langsamer, obwohl sie theoretisch deutlich mehr Rechenleistung besitzen.
Latency vs. Throughput
CPUs sind auf geringe Latenz optimiert. Eine einzelne Anfrage oder Berechnung soll möglichst schnell abgeschlossen werden. Deshalb verfügen CPUs über große Caches, komplexe Steuerlogik und hohe Single-Core-Performance. GPUs optimieren dagegen den Durchsatz. Ziel ist nicht die schnellste Einzeloperation, sondern die Verarbeitung möglichst vieler Operationen gleichzeitig.
Dieser Unterschied ist entscheidend für die Auswahl von Cloud-Instanzen. Ein Webshop benötigt typischerweise geringe Antwortzeiten und läuft effizient auf CPUs. Ein LLM-Training profitiert dagegen enorm vom hohen GPU-Durchsatz. In der Praxis entstehen deshalb häufig Hybridarchitekturen. Die CPU steuert Logik und Datenfluss, während die GPU spezialisierte Parallelberechnungen übernimmt.
Vergleichstabelle: Architektur und Performance
| Merkmal | Cloud CPU | Cloud GPU |
|---|---|---|
| Kernanzahl | Bis zu 128 (Intel Xeon 6 P-Core) bzw. bis zu 192 (EPYC Turin) Kerne pro Sockel | Tausende spezialisierte Recheneinheiten |
| Spezialisierung | Serielle Logik, niedrige Latenz | Massive Parallelisierung |
| Speicherbandbreite | Vergleichsweise gering | Sehr hoch, je nach Modell z. B. HBM3 (H100 SXM) oder HBM2e (H100 PCIe) |
| Ideal für | Datenbanken, APIs, Webserver | KI, HPC, Simulationen, Vektorrechnung |
| Branch Prediction | Sehr stark optimiert | Weniger relevant |
| Parallelität | Mittel | Extrem hoch |
| Energieeffizienz pro Parallel-Task | Bei stark parallelen Tasks meist geringer | Bei stark parallelen Tasks meist deutlich höher |
Workloads: Welche Aufgaben profitieren wirklich von GPUs?
Nicht jede Anwendung wird durch GPUs automatisch schneller. Entscheidend ist vor allem, wie gut sich Aufgaben parallelisieren lassen. Je mehr identische Operationen gleichzeitig verarbeitet werden können, desto größer fällt der GPU-Vorteil aus.
Matrix-Multiplikation
Matrix-Multiplikationen bilden die Grundlage von aktuellen KI-Systemen. Transformer-Modelle wie große Sprachmodelle bestehen überwiegend aus Tensor- und Matrixoperationen. GPUs besitzen dafür spezialisierte Hardwareeinheiten wie Tensor Cores. Diese beschleunigen Mixed-Precision-Berechnungen massiv. So sind beispielsweise Hopper-GPUs wie die H100 oder H200 genau für diese Workloads optimiert. Dadurch entstehen enorme Geschwindigkeitsvorteile gegenüber CPUs.
Vector Processing
Viele Datenanalyse- und KI-Workloads arbeiten intern mit Vektoren. Dabei werden identische mathematische Operationen auf große Datenmengen angewendet. GPUs sind auch für solche Muster ideal geeignet. Frameworks wie RAPIDS oder CUDA-Bibliotheken nutzen diese Architektur gezielt aus. Auch Embedding-Systeme, Recommendation Engines oder Suchalgorithmen profitieren stark davon. CPUs können solche Aufgaben zwar ebenfalls ausführen, erreichen aber einen deutlich geringeren Durchsatz.
Floating Point Operations
Wissenschaftliche Simulationen und KI-Anwendungen benötigen enorme Mengen an sogenannten Floating-Point-Operationen (FLOPS). GPUs sind speziell auf hohe FP16-, BF16-, FP8- oder FP4-Leistung ausgelegt.
Wichtig ist dabei jedoch, die jeweilige Präzisionsstufe zu unterscheiden:
- Eine NVIDIA H100 SXM erreicht beispielsweise rund 2 PetaFLOPS FP16-Tensor-Leistung mit Sparsity.
- Bei Blackwell-GPUs wie der B200 liegen die theoretischen Spitzenwerte deutlich höher, allerdings bei niedrigeren Präzisionsformaten: Pro GPU sind bis zu 9 PFLOPS FP8 mit Sparsity bzw. bis zu 18 PFLOPS FP4 mit Sparsity möglich.
Ohne Sparsity halbieren sich diese theoretischen Werte entsprechend. CPUs priorisieren dagegen Flexibilität statt maximaler FLOPS-Dichte. Dadurch sind GPUs bei numerisch intensiven und gut parallelisierbaren Workloads meist deutlich schneller.
Hardware und APIs: Die Software entscheidet mit
Die beste Hardware bringt wenig ohne passende Softwareunterstützung. GPU-Workloads hängen stark von spezialisierten Frameworks und APIs ab. Gleichzeitig besitzen auch CPUs eigene Parallelisierungstechnologien.
CUDA
CUDA ist die proprietäre GPU-Plattform von NVIDIA. Sie gilt als De-facto-Standard für GPU-Computing im KI-Bereich. Frameworks wie PyTorch, TensorFlow oder RAPIDS optimieren ihre GPU-Beschleunigung primär für CUDA. Dadurch profitieren NVIDIA-GPUs von einem enormen Software-Ökosystem. Viele KI-Modelle und Bibliotheken laufen dort zuerst und am stabilsten. Der Nachteil liegt in der Herstellerbindung. CUDA funktioniert ausschließlich auf NVIDIA-Hardware.
ROCm (AMD)
ROCm ist AMDs offene Plattform für GPU-Computing und gilt heute als wichtigste Alternative zu CUDA. Seit den KI-Beschleunigern der Instinct-Serie wie MI300X gewinnt ROCm im KI- und HPC-Umfeld deutlich an Bedeutung. Frameworks wie PyTorch oder vLLM unterstützen ROCm inzwischen zunehmend direkt.
Im Gegensatz zu CUDA setzt AMD stärker auf offene Standards und Portabilität. Über Technologien wie HIP lassen sich viele CUDA-Workloads mit vergleichsweise geringem Anpassungsaufwand auf AMD-Hardware übertragen.
OpenCL
OpenCL ist ein offener Standard für heterogenes Computing. Anders als CUDA unterstützt OpenCL verschiedene Hersteller und Gerätetypen. Damit lassen sich Anwendungen theoretisch plattformübergreifend entwickeln. In der Praxis ist die Performance-Optimierung jedoch oft komplexer als bei CUDA. Die meisten KI-Frameworks priorisieren inzwischen CUDA, wodurch OpenCL im KI-Training etwas an Bedeutung verloren hat.
Tensor Cores
Tensor Cores sind spezialisierte Recheneinheiten von NVIDIA-GPUs. Sie beschleunigen Matrix- und Tensoroperationen erheblich. Gerade bei KI-Training und Inferenz liefern Tensor Cores enorme Geschwindigkeitsvorteile. Spezielle GPUs kombinieren Tensor Cores zusätzlich mit sogenannten High Bandwidth Memory. Dadurch können große Datenmengen extrem schnell verarbeitet werden.
AVX-512 (CPU-Parallelisierung)
Auch CPUs besitzen Parallelisierungstechnologien. AVX-512 erweitert CPUs um breite SIMD-Vektoroperationen. Dadurch können CPUs mehrere Datenwerte gleichzeitig verarbeiten. Besonders wissenschaftliche Anwendungen profitieren davon. Allerdings bleibt die Parallelität nach wie vor deutlich kleiner als bei GPUs. Für kleinere Datenmengen oder gemischte Workloads kann AVX-512 dennoch sehr effizient sein.
Speedup-Kalkulation mit Amdahls Gesetz
Nicht jeder Teil einer Anwendung lässt sich parallelisieren. In nahezu jedem Programm existieren serielle Abschnitte, die weiterhin nacheinander verarbeitet werden müssen und dadurch zum natürlichen Flaschenhals werden. Genau hier setzt das sogenannte Amdahlsche Gesetz an. Es beschreibt, wie stark sich ein Workload theoretisch beschleunigen lässt, wenn nur ein bestimmter Anteil der Berechnungen parallelisierbar ist.
Die Formel sieht folgendermaßen aus:

Dabei gilt:
- S = theoretischer Speedup
- P = parallelisierbarer Anteil
- N = Anzahl paralleler Recheneinheiten
Wenn also beispielsweise 90 Prozent eines Workloads parallelisierbar sind (P = 0,9), bleibt selbst mit unbegrenzt vielen GPU-Kernen ein serieller Rest von 10 Prozent bestehen. Dadurch entsteht eine natürliche Obergrenze der Beschleunigung. Genau deshalb profitieren manche Anwendungen trotz starker GPUs nur begrenzt.
In der Praxis gilt in vielen Fällen, dass sich GPU-Computing bei einem hohen Parallelisierungsgrad lohnen kann; der konkrete Break-even muss jedoch pro Workload berechnet werden.
Wirtschaftlichkeit: Wann amortisieren sich GPU-Instanzen?
Im Vergleich CPU vs. GPU kosten Letztere oftmals ein Vielfaches klassischer CPU-Server. Trotzdem können sie wirtschaftlicher sein, wenn sie Berechnungen drastisch beschleunigen. Entscheidend ist daher nicht der Stundenpreis allein, sondern die Gesamtkosten pro abgeschlossenem Workload.
TCO (Total Cost of Ownership)
Die Total Cost of Ownership umfasst mehr als reine Cloud-Kosten. Auch Entwicklungszeit, Energieverbrauch, Skalierung und Time-to-Result spielen eine Rolle. Wenn ein GPU-Cluster ein KI-Training statt in 20 Stunden in 1 Stunde abschließt, sinken oft die Gesamtkosten trotz höherer Instanzpreise. Gerade bei produktionskritischen Pipelines kann schnellere Verarbeitung wirtschaftlich entscheidend sein.
Spot-Instanzen
Cloud-Provider bieten häufig vergünstigte Spot- oder Preemptible-Instanzen an. Hierbei handelt es sich um temporär verfügbare Rechenressourcen mit stark reduziertem Preis, die vom Anbieter bei Bedarf jedoch kurzfristig wieder entzogen werden können. Diese können GPU-Kosten massiv reduzieren. Für Batch-Workloads oder Trainingsjobs eignen sich solche Modelle oft sehr gut. Da die Instanzen kurzfristig beendet werden können, müssen Anwendungen jedoch fehlertolerant aufgebaut sein.
Amortisation
Eine GPU amortisiert sich dann, wenn die Zeitersparnis den Preisaufschlag übersteigt.
Angenommen, eine CPU-Instanz kostet 20 Cent pro Stunde und benötigt 20 Stunden. Eine GPU kostet 2 Euro pro Stunde, beendet den Job aber in einer Stunde. Dann entstehen Gesamtkosten von 4 Euro auf CPU gegenüber 2 Euro auf GPU. Zusätzlich wird Rechenkapazität früher frei und Entwicklungszyklen beschleunigen sich.
Compute-Sekunden-Vergleich
Viele Unternehmen vergleichen heute Compute-Sekunden statt Instanzpreise. Relevant ist also nicht: „Wie teuer ist die Hardware pro Stunde?“, sondern: „Wie teuer ist das fertige Ergebnis?“.
Gerade bei KI-Inferenz, Simulationen oder Analytics gewinnen GPUs deshalb zunehmend an Bedeutung. Bei kleinen oder schlecht parallelisierbaren Anwendungen bleibt die CPU dagegen in aller Regel effizienter.
Checkliste: In 3 Schritten zur richtigen Instanzwahl
- Anteil parallelisierbarer Tasks analysieren: Wenn viele der nötigen Berechnungen parallel ausführbar sind, steigt das GPU-Potenzial erheblich.
- Framework-Support prüfen: Frameworks wie PyTorch, TensorFlow, CUDA oder RAPIDS sollten native GPU-Unterstützung besitzen.
- Wirtschaftlichkeit berechnen: Die reduzierte Laufzeit sollte höhere Instanzkosten und Datentransferlatenzen klar kompensieren.
Fazit: Hybrid-Strategien sind oft die sinnvollste Lösung
In Cloud-Architekturen ersetzen GPUs die CPU nicht vollständig. Stattdessen übernehmen beide unterschiedliche Rollen. CPUs bleiben ideal für Steuerlogik, APIs, Datenbanken und latenzkritische Prozesse. GPUs dominieren dagegen KI, HPC, Simulationen und hochgradig parallele Datenverarbeitung.
Gerade deshalb setzen viele Unternehmen auf Hybridarchitekturen. Die CPU koordiniert Workflows und Datenfluss, während GPUs spezialisierte Rechenlasten beschleunigen. Für Entwicklerinnen und Entwickler lautet die wichtigste Erkenntnis daher: Nicht jede Anwendung benötigt GPUs. Sobald jedoch große Teile eines Workloads parallelisierbar sind und moderne Frameworks genutzt werden, kann sich der höhere Preis von GPU-Instanzen sehr schnell amortisieren.

