Die CPU ist auf geringe Latenz bei komplexer serieller Logik optimiert, während die GPU durch massive Par­al­le­li­sie­rung einen sehr hohen Da­ten­durch­satz erzielt. Ein Umstieg lohnt sich bei re­chen­in­ten­si­ven Workloads, sobald der Zeit­vor­teil der par­al­le­len Ver­ar­bei­tung die höheren In­stanz­kos­ten und Da­ten­trans­fer­la­ten­zen der GPU-Ar­chi­tek­tur öko­no­misch über­trifft.

Cloud GPU VM
Maximale KI-Per­for­mance mit Ihrer Cloud GPU VM
  • Exklusive NVIDIA H200 GPUs für höchste Re­chen­leis­tung
  • Ga­ran­tier­te Per­for­mance durch voll­stän­dig de­di­zier­te CPU-Kerne
  • 100 % Hosting in Deutsch­land für maximale Da­ten­si­cher­heit und DSGVO-Kon­for­mi­tät
  • Einfaches, kal­ku­lier­ba­res Preis­mo­dell mit festem Preis pro Stunde

CPU vs. GPU

Eine CPU (Central Pro­ces­sing Unit) ist der klas­si­sche Haupt­pro­zes­sor eines Systems. Sie ver­ar­bei­tet all­ge­mei­ne Re­chen­ope­ra­tio­nen, steuert Be­triebs­sys­te­me, führt Programme aus und optimiert Re­ak­ti­ons­zei­ten. Cloud-CPUs wie AMD EPYC oder Intel Xeon besitzen im Vergleich zu GPUs wenige, aber sehr leis­tungs­fä­hi­ge Kerne mit großen Caches und aus­ge­feil­ter Sprung­vor­her­sa­ge, der so­ge­nann­ten Branch Pre­dic­tion.

Eine GPU (Graphics Pro­ces­sing Unit) wurde ur­sprüng­lich für Gra­fik­be­rech­nun­gen ent­wi­ckelt. Heute werden GPUs jedoch vor allem für parallele Re­chen­auf­ga­ben ein­ge­setzt, bei­spiels­wei­se beim Training von KI-Modellen, bei wis­sen­schaft­li­chen Si­mu­la­tio­nen oder bei Vi­deo­ver­ar­bei­tung. GPUs wie die NVIDIA H100 besitzen Tausende kleine Re­chen­ein­hei­ten, die viele ähnliche Ope­ra­tio­nen gleich­zei­tig ausführen können.

Der wich­tigs­te Un­ter­schied liegt daher nicht primär in der Taktrate oder der Kern­an­zahl, sondern in der Ar­chi­tek­tur. CPUs prio­ri­sie­ren geringe Latenz und Fle­xi­bi­li­tät. GPUs ma­xi­mie­ren dagegen den Da­ten­durch­satz bei par­al­le­len Aufgaben.

Hinweis

GPUs lohnen sich vor allem bei Workloads, die sich in viele un­ab­hän­gi­ge Teil­be­rech­nun­gen zerlegen lassen. Dazu gehören etwa KI-Training, Si­mu­la­tio­nen, Batch-Analysen oder Vi­deo­ver­ar­bei­tung. Bei seriellen Aufgaben wie Ge­schäfts­lo­gik, Da­ten­bank­trans­ak­tio­nen oder API-Requests bleiben CPUs meist ef­fi­zi­en­ter.

Ar­chi­tek­tur: Warum Kerne nicht gleich Kerne sind

CPUs und GPUs un­ter­schei­den sich fun­da­men­tal im Aufbau ihrer Re­chen­lo­gik. Obwohl beide Pro­zes­so­ren Be­rech­nun­gen durch­füh­ren, op­ti­mie­ren sie un­ter­schied­li­che Ziele. Während CPUs schnelle Ein­zel­ope­ra­tio­nen prio­ri­sie­ren, kon­zen­trie­ren sich GPUs auf parallele Mas­sen­da­ten­ver­ar­bei­tung.

SIMD (Single In­s­truc­tion, Multiple Data)

SIMD be­schreibt ein Re­chen­mo­dell, bei dem dieselbe In­struk­ti­on gleich­zei­tig auf viele Da­ten­punk­te an­ge­wen­det wird. GPUs basieren stark auf diesem Prinzip. Wenn bei­spiels­wei­se Millionen Pixel oder Ten­sor­wer­te identisch ver­ar­bei­tet werden müssen, kann die GPU dieselbe Operation parallel ausführen. Der Vorteil von SIMD liegt im enormen Da­ten­durch­satz. Sobald Be­rech­nun­gen al­ler­dings stark von­ein­an­der abhängen oder viele Ver­zwei­gun­gen enthalten, sinkt die Effizienz deutlich.

Das eignet sich vor allem für Machine Learning, Bild­ver­ar­bei­tung oder wis­sen­schaft­li­che Si­mu­la­tio­nen. Viele neuronale Netze bestehen haupt­säch­lich aus iden­ti­schen Ma­trix­ope­ra­tio­nen, die sich daher perfekt par­al­le­li­sie­ren lassen.

CPUs un­ter­stüt­zen ebenfalls SIMD-Er­wei­te­run­gen wie SSE oder AVX-512. Al­ler­dings ist die Par­al­le­li­sie­rung dort deutlich kleiner skaliert. Eine CPU ver­ar­bei­tet bis zu 16 oder 64 Werte gleich­zei­tig, während eine GPU Tausende Threads parallel ausführt.

Hinweis

Bei NVIDIA-GPUs wird das Aus­füh­rungs­mo­dell häufig präziser als SIMT be­schrie­ben: Viele Threads führen denselben Kernel aus, ver­ar­bei­ten dabei jedoch un­ter­schied­li­che Daten. Wenn Threads innerhalb eines Warps un­ter­schied­li­che Aus­füh­rungs­pfa­de nehmen, sinkt die Effizienz.

MIMD (Multiple In­s­truc­tion, Multiple Data)

CPUs arbeiten über­wie­gend nach dem so­ge­nann­ten MIMD-Prinzip. Dabei können ver­schie­de­ne Kerne un­ter­schied­li­che In­struk­tio­nen auf un­ter­schied­li­chen Daten ausführen. Dieses Modell ist we­sent­lich flexibler als SIMD.

Dadurch eignen sich CPUs besonders für komplexe An­wen­dun­gen mit vielen Be­din­gun­gen, Sprüngen und Ab­hän­gig­kei­ten. Typische Beispiele sind Da­ten­ban­ken, Webserver oder Ge­schäfts­lo­gik. Eine CPU kann also ver­schie­de­ne Aufgaben gleich­zei­tig prio­ri­sie­ren und dynamisch um­schal­ten. GPUs verlieren dagegen Leistung, wenn Threads un­ter­schied­li­che Aus­füh­rungs­pfa­de nehmen. Gerade bei APIs, klas­si­schen Backend-An­wen­dun­gen oder Be­triebs­sys­tem­pro­zes­sen bleibt die CPU deshalb überlegen.

In­s­truc­tion Cycles

CPUs in­ves­tie­ren enorme Tran­sis­tor­bud­gets in die Op­ti­mie­rung einzelner Be­fehls­zy­klen. Aktuelle Pro­zes­so­ren nutzen Out-of-Order-Execution, Spe­cu­la­ti­ve Execution und Branch Pre­dic­tion, um In­struk­tio­nen möglichst effizient aus­zu­füh­ren. Dadurch re­du­zie­ren CPUs War­te­zei­ten erheblich, sodass bei seriellen Aufgaben die Leistung massiv ge­stei­gert wird.

GPUs verfolgen einen anderen Ansatz. Statt einzelne Befehle maximal zu op­ti­mie­ren, ak­zep­tie­ren sie höhere Latenzen und kom­pen­sie­ren diese durch extreme Par­al­le­li­tät. So wirken GPUs bei schlecht par­al­le­li­sier­ba­ren Aufgaben oft langsamer, obwohl sie theo­re­tisch deutlich mehr Re­chen­leis­tung besitzen.

Latency vs. Th­rough­put

CPUs sind auf geringe Latenz optimiert. Eine einzelne Anfrage oder Be­rech­nung soll möglichst schnell ab­ge­schlos­sen werden. Deshalb verfügen CPUs über große Caches, komplexe Steu­er­lo­gik und hohe Single-Core-Per­for­mance. GPUs op­ti­mie­ren dagegen den Durchsatz. Ziel ist nicht die schnells­te Ein­zel­ope­ra­ti­on, sondern die Ver­ar­bei­tung möglichst vieler Ope­ra­tio­nen gleich­zei­tig.

Dieser Un­ter­schied ist ent­schei­dend für die Auswahl von Cloud-Instanzen. Ein Webshop benötigt ty­pi­scher­wei­se geringe Ant­wort­zei­ten und läuft effizient auf CPUs. Ein LLM-Training pro­fi­tiert dagegen enorm vom hohen GPU-Durchsatz. In der Praxis entstehen deshalb häufig Hy­brid­ar­chi­tek­tu­ren. Die CPU steuert Logik und Da­ten­fluss, während die GPU spe­zia­li­sier­te Par­al­lel­be­rech­nun­gen übernimmt.

Ver­gleichs­ta­bel­le: Ar­chi­tek­tur und Per­for­mance

Merkmal Cloud CPU Cloud GPU
Kern­an­zahl Bis zu 128 (Intel Xeon 6 P-Core) bzw. bis zu 192 (EPYC Turin) Kerne pro Sockel Tausende spe­zia­li­sier­te Re­chen­ein­hei­ten
Spe­zia­li­sie­rung Serielle Logik, niedrige Latenz Massive Par­al­le­li­sie­rung
Spei­cher­band­brei­te Ver­gleichs­wei­se gering Sehr hoch, je nach Modell z. B. HBM3 (H100 SXM) oder HBM2e (H100 PCIe)
Ideal für Da­ten­ban­ken, APIs, Webserver KI, HPC, Si­mu­la­tio­nen, Vek­tor­rech­nung
Branch Pre­dic­tion Sehr stark optimiert Weniger relevant
Par­al­le­li­tät Mittel Extrem hoch
En­er­gie­ef­fi­zi­enz pro Parallel-Task Bei stark par­al­le­len Tasks meist geringer Bei stark par­al­le­len Tasks meist deutlich höher

Workloads: Welche Aufgaben pro­fi­tie­ren wirklich von GPUs?

Nicht jede Anwendung wird durch GPUs au­to­ma­tisch schneller. Ent­schei­dend ist vor allem, wie gut sich Aufgaben par­al­le­li­sie­ren lassen. Je mehr iden­ti­sche Ope­ra­tio­nen gleich­zei­tig ver­ar­bei­tet werden können, desto größer fällt der GPU-Vorteil aus.

Matrix-Mul­ti­pli­ka­ti­on

Matrix-Mul­ti­pli­ka­tio­nen bilden die Grundlage von aktuellen KI-Systemen. Trans­for­mer-Modelle wie große Sprach­mo­del­le bestehen über­wie­gend aus Tensor- und Ma­trix­ope­ra­tio­nen. GPUs besitzen dafür spe­zia­li­sier­te Hard­ware­ein­hei­ten wie Tensor Cores. Diese be­schleu­ni­gen Mixed-Precision-Be­rech­nun­gen massiv. So sind bei­spiels­wei­se Hopper-GPUs wie die H100 oder H200 genau für diese Workloads optimiert. Dadurch entstehen enorme Ge­schwin­dig­keits­vor­tei­le gegenüber CPUs.

Vector Pro­ces­sing

Viele Da­ten­ana­ly­se- und KI-Workloads arbeiten intern mit Vektoren. Dabei werden iden­ti­sche ma­the­ma­ti­sche Ope­ra­tio­nen auf große Da­ten­men­gen an­ge­wen­det. GPUs sind auch für solche Muster ideal geeignet. Frame­works wie RAPIDS oder CUDA-Bi­blio­the­ken nutzen diese Ar­chi­tek­tur gezielt aus. Auch Embedding-Systeme, Re­com­men­da­ti­on Engines oder Such­al­go­rith­men pro­fi­tie­ren stark davon. CPUs können solche Aufgaben zwar ebenfalls ausführen, erreichen aber einen deutlich ge­rin­ge­ren Durchsatz.

Floating Point Ope­ra­ti­ons

Wis­sen­schaft­li­che Si­mu­la­tio­nen und KI-An­wen­dun­gen benötigen enorme Mengen an so­ge­nann­ten Floating-Point-Ope­ra­tio­nen (FLOPS). GPUs sind speziell auf hohe FP16-, BF16-, FP8- oder FP4-Leistung ausgelegt.

Wichtig ist dabei jedoch, die jeweilige Prä­zi­si­ons­stu­fe zu un­ter­schei­den:

  • Eine NVIDIA H100 SXM erreicht bei­spiels­wei­se rund 2 PetaFLOPS FP16-Tensor-Leistung mit Sparsity.
  • Bei Blackwell-GPUs wie der B200 liegen die theo­re­ti­schen Spit­zen­wer­te deutlich höher, al­ler­dings bei nied­ri­ge­ren Prä­zi­si­ons­for­ma­ten: Pro GPU sind bis zu 9 PFLOPS FP8 mit Sparsity bzw. bis zu 18 PFLOPS FP4 mit Sparsity möglich.

Ohne Sparsity halbieren sich diese theo­re­ti­schen Werte ent­spre­chend. CPUs prio­ri­sie­ren dagegen Fle­xi­bi­li­tät statt maximaler FLOPS-Dichte. Dadurch sind GPUs bei numerisch in­ten­si­ven und gut par­al­le­li­sier­ba­ren Workloads meist deutlich schneller.

Hardware und APIs: Die Software ent­schei­det mit

Die beste Hardware bringt wenig ohne passende Soft­ware­un­ter­stüt­zung. GPU-Workloads hängen stark von spe­zia­li­sier­ten Frame­works und APIs ab. Gleich­zei­tig besitzen auch CPUs eigene Par­al­le­li­sie­rungs­tech­no­lo­gien.

CUDA

CUDA ist die pro­prie­tä­re GPU-Plattform von NVIDIA. Sie gilt als De-facto-Standard für GPU-Computing im KI-Bereich. Frame­works wie PyTorch, Ten­sor­Flow oder RAPIDS op­ti­mie­ren ihre GPU-Be­schleu­ni­gung primär für CUDA. Dadurch pro­fi­tie­ren NVIDIA-GPUs von einem enormen Software-Ökosystem. Viele KI-Modelle und Bi­blio­the­ken laufen dort zuerst und am sta­bils­ten. Der Nachteil liegt in der Her­stel­ler­bin­dung. CUDA funk­tio­niert aus­schließ­lich auf NVIDIA-Hardware.

ROCm (AMD)

ROCm ist AMDs offene Plattform für GPU-Computing und gilt heute als wich­tigs­te Al­ter­na­ti­ve zu CUDA. Seit den KI-Be­schleu­ni­gern der Instinct-Serie wie MI300X gewinnt ROCm im KI- und HPC-Umfeld deutlich an Bedeutung. Frame­works wie PyTorch oder vLLM un­ter­stüt­zen ROCm in­zwi­schen zunehmend direkt.

Im Gegensatz zu CUDA setzt AMD stärker auf offene Standards und Por­ta­bi­li­tät. Über Tech­no­lo­gien wie HIP lassen sich viele CUDA-Workloads mit ver­gleichs­wei­se geringem An­pas­sungs­auf­wand auf AMD-Hardware über­tra­gen.

OpenCL

OpenCL ist ein offener Standard für he­te­ro­ge­nes Computing. Anders als CUDA un­ter­stützt OpenCL ver­schie­de­ne Her­stel­ler und Ge­rä­te­ty­pen. Damit lassen sich An­wen­dun­gen theo­re­tisch platt­form­über­grei­fend ent­wi­ckeln. In der Praxis ist die Per­for­mance-Op­ti­mie­rung jedoch oft komplexer als bei CUDA. Die meisten KI-Frame­works prio­ri­sie­ren in­zwi­schen CUDA, wodurch OpenCL im KI-Training etwas an Bedeutung verloren hat.

Tensor Cores

Tensor Cores sind spe­zia­li­sier­te Re­chen­ein­hei­ten von NVIDIA-GPUs. Sie be­schleu­ni­gen Matrix- und Ten­sor­ope­ra­tio­nen erheblich. Gerade bei KI-Training und Inferenz liefern Tensor Cores enorme Ge­schwin­dig­keits­vor­tei­le. Spezielle GPUs kom­bi­nie­ren Tensor Cores zu­sätz­lich mit so­ge­nann­ten High Bandwidth Memory. Dadurch können große Da­ten­men­gen extrem schnell ver­ar­bei­tet werden.

AVX-512 (CPU-Par­al­le­li­sie­rung)

Auch CPUs besitzen Par­al­le­li­sie­rungs­tech­no­lo­gien. AVX-512 erweitert CPUs um breite SIMD-Vek­tor­ope­ra­tio­nen. Dadurch können CPUs mehrere Da­ten­wer­te gleich­zei­tig ver­ar­bei­ten. Besonders wis­sen­schaft­li­che An­wen­dun­gen pro­fi­tie­ren davon. Al­ler­dings bleibt die Par­al­le­li­tät nach wie vor deutlich kleiner als bei GPUs. Für kleinere Da­ten­men­gen oder gemischte Workloads kann AVX-512 dennoch sehr effizient sein.

Speedup-Kal­ku­la­ti­on mit Amdahls Gesetz

Nicht jeder Teil einer Anwendung lässt sich par­al­le­li­sie­ren. In nahezu jedem Programm exis­tie­ren serielle Ab­schnit­te, die weiterhin nach­ein­an­der ver­ar­bei­tet werden müssen und dadurch zum na­tür­li­chen Fla­schen­hals werden. Genau hier setzt das so­ge­nann­te Am­dah­l­sche Gesetz an. Es be­schreibt, wie stark sich ein Workload theo­re­tisch be­schleu­ni­gen lässt, wenn nur ein be­stimm­ter Anteil der Be­rech­nun­gen par­al­le­li­sier­bar ist.

Die Formel sieht fol­gen­der­ma­ßen aus:

Bild: Amdahls Gesetz
Mit Amdahls Gesetz lässt sich berechnen, wie stark die Workload-Be­schleu­ni­gung (Speedup S) ausfallen kann, wenn der Anteil P der Be­rech­nun­gen par­al­le­li­sier­bar ist.

Dabei gilt:

  • S = theo­re­ti­scher Speedup
  • P = par­al­le­li­sier­ba­rer Anteil
  • N = Anzahl par­al­le­ler Re­chen­ein­hei­ten

Wenn also bei­spiels­wei­se 90 Prozent eines Workloads par­al­le­li­sier­bar sind (P = 0,9), bleibt selbst mit un­be­grenzt vielen GPU-Kernen ein serieller Rest von 10 Prozent bestehen. Dadurch entsteht eine na­tür­li­che Ober­gren­ze der Be­schleu­ni­gung. Genau deshalb pro­fi­tie­ren manche An­wen­dun­gen trotz starker GPUs nur begrenzt.

In der Praxis gilt in vielen Fällen, dass sich GPU-Computing bei einem hohen Par­al­le­li­sie­rungs­grad lohnen kann; der konkrete Break-even muss jedoch pro Workload berechnet werden.

Wirt­schaft­lich­keit: Wann amor­ti­sie­ren sich GPU-Instanzen?

Im Vergleich CPU vs. GPU kosten Letztere oftmals ein Viel­fa­ches klas­si­scher CPU-Server. Trotzdem können sie wirt­schaft­li­cher sein, wenn sie Be­rech­nun­gen drastisch be­schleu­ni­gen. Ent­schei­dend ist daher nicht der Stun­den­preis allein, sondern die Ge­samt­kos­ten pro ab­ge­schlos­se­nem Workload.

TCO (Total Cost of Ownership)

Die Total Cost of Ownership umfasst mehr als reine Cloud-Kosten. Auch Ent­wick­lungs­zeit, En­er­gie­ver­brauch, Ska­lie­rung und Time-to-Result spielen eine Rolle. Wenn ein GPU-Cluster ein KI-Training statt in 20 Stunden in 1 Stunde ab­schließt, sinken oft die Ge­samt­kos­ten trotz höherer In­stanz­prei­se. Gerade bei pro­duk­ti­ons­kri­ti­schen Pipelines kann schnel­le­re Ver­ar­bei­tung wirt­schaft­lich ent­schei­dend sein.

Spot-Instanzen

Cloud-Provider bieten häufig ver­güns­tig­te Spot- oder Pre­emp­ti­ble-Instanzen an. Hierbei handelt es sich um temporär ver­füg­ba­re Re­chen­res­sour­cen mit stark re­du­zier­tem Preis, die vom Anbieter bei Bedarf jedoch kurz­fris­tig wieder entzogen werden können. Diese können GPU-Kosten massiv re­du­zie­ren. Für Batch-Workloads oder Trai­nings­jobs eignen sich solche Modelle oft sehr gut. Da die Instanzen kurz­fris­tig beendet werden können, müssen An­wen­dun­gen jedoch feh­ler­to­le­rant aufgebaut sein.

Amor­ti­sa­ti­on

Eine GPU amor­ti­siert sich dann, wenn die Zeit­er­spar­nis den Preis­auf­schlag über­steigt.

An­ge­nom­men, eine CPU-Instanz kostet 20 Cent pro Stunde und benötigt 20 Stunden. Eine GPU kostet 2 Euro pro Stunde, beendet den Job aber in einer Stunde. Dann entstehen Ge­samt­kos­ten von 4 Euro auf CPU gegenüber 2 Euro auf GPU. Zu­sätz­lich wird Re­chen­ka­pa­zi­tät früher frei und Ent­wick­lungs­zy­klen be­schleu­ni­gen sich.

Compute-Sekunden-Vergleich

Viele Un­ter­neh­men ver­glei­chen heute Compute-Sekunden statt In­stanz­prei­se. Relevant ist also nicht: „Wie teuer ist die Hardware pro Stunde?“, sondern: „Wie teuer ist das fertige Ergebnis?“.

Gerade bei KI-Inferenz, Si­mu­la­tio­nen oder Analytics gewinnen GPUs deshalb zunehmend an Bedeutung. Bei kleinen oder schlecht par­al­le­li­sier­ba­ren An­wen­dun­gen bleibt die CPU dagegen in aller Regel ef­fi­zi­en­ter.

Check­lis­te: In 3 Schritten zur richtigen In­stanz­wahl

  1. Anteil par­al­le­li­sier­ba­rer Tasks ana­ly­sie­ren: Wenn viele der nötigen Be­rech­nun­gen parallel aus­führ­bar sind, steigt das GPU-Potenzial erheblich.
  2. Framework-Support prüfen: Frame­works wie PyTorch, Ten­sor­Flow, CUDA oder RAPIDS sollten native GPU-Un­ter­stüt­zung besitzen.
  3. Wirt­schaft­lich­keit berechnen: Die re­du­zier­te Laufzeit sollte höhere In­stanz­kos­ten und Da­ten­trans­fer­la­ten­zen klar kom­pen­sie­ren.

Fazit: Hybrid-Stra­te­gien sind oft die sinn­volls­te Lösung

In Cloud-Ar­chi­tek­tu­ren ersetzen GPUs die CPU nicht voll­stän­dig. Statt­des­sen über­neh­men beide un­ter­schied­li­che Rollen. CPUs bleiben ideal für Steu­er­lo­gik, APIs, Da­ten­ban­ken und la­tenz­kri­ti­sche Prozesse. GPUs do­mi­nie­ren dagegen KI, HPC, Si­mu­la­tio­nen und hoch­gra­dig parallele Da­ten­ver­ar­bei­tung.

Gerade deshalb setzen viele Un­ter­neh­men auf Hy­brid­ar­chi­tek­tu­ren. Die CPU ko­or­di­niert Workflows und Da­ten­fluss, während GPUs spe­zia­li­sier­te Re­chen­las­ten be­schleu­ni­gen. Für Ent­wick­le­rin­nen und Ent­wick­ler lautet die wich­tigs­te Er­kennt­nis daher: Nicht jede Anwendung benötigt GPUs. Sobald jedoch große Teile eines Workloads par­al­le­li­sier­bar sind und moderne Frame­works genutzt werden, kann sich der höhere Preis von GPU-Instanzen sehr schnell amor­ti­sie­ren.

Zum Hauptmenü