VRAM-Kalkulation 2026: Cloud-GPUs für LLMs & 4K richtig wählen
VRAM (Video RAM) ist der dedizierte Speicher einer Grafikkarte und stellt bei Large Language Models, 4K-Video-Workflows und 3D-Rendering häufig den eigentlichen Flaschenhals dar. Reicht der verfügbare VRAM nicht aus, können KI-Modelle meist nicht vollständig geladen werden oder brechen mit Speicherfehlern ab. Nur bei explizit konfiguriertem Offloading werden Teile der Daten in den langsameren System-RAM oder auf Datenträger ausgelagert. Das erhöht die Latenz deutlich und kann den Durchsatz massiv reduzieren.
Der VRAM-Flaschenhals erklärt
Viele Nutzerinnen und Nutzer achten beim Kauf einer GPU zuerst auf die Anzahl der CUDA-Cores oder die maximale Rechenleistung in TFLOPS. In der Praxis entscheidet jedoch häufig der verfügbare Grafikspeicher darüber, ob ein KI-Modell oder ein 4K-Projekt überhaupt effizient verarbeitet werden kann.
Bei LLMs müssen die Modellgewichte vollständig oder nahezu vollständig in den VRAM geladen werden. Reicht der Speicher nicht aus, kann das Modell ohne Quantisierung, Multi-GPU-Verteilung oder explizites CPU-/Disk-Offloading häufig nicht vollständig geladen werden. Wird Offloading genutzt, müssen Daten über PCIe zwischen GPU und Hostsystem bewegt werden, was die Latenz erhöht und den Durchsatz deutlich senken kann.
Besonders deutlich wird dies bei großen Modellen wie Llama 3 70B oder Qwen 72B. Die reine Rechenleistung der GPU hilft wenig, wenn die Daten nicht schnell genug bereitgestellt werden können. In solchen Fällen wartet die GPU auf Speicherzugriffe, statt tatsächlich zu rechnen. Deshalb ist VRAM bei KI-Workloads häufig wichtiger als zusätzliche Shader- oder CUDA-Cores. Die verfügbare Speicherkapazität bestimmt, welche Modelle geladen werden können, während die Speicherbandbreite entscheidet, wie schnell die Daten verarbeitet werden.
Für professionelle KI-Anwendungen kommen daher häufig GPUs mit HBM-Speicher (High Bandwidth Memory) zum Einsatz. NVIDIA H100- und H200-Beschleuniger erreichen mit HBM3 beziehungsweise HBM3e Speicherbandbreiten von mehreren Terabyte pro Sekunde. Consumer-GPUs wie die RTX 4090 verwenden dagegen GDDR6X-Speicher mit deutlich geringerer Bandbreite. Zwar ist die Rohleistung ebenfalls sehr hoch, bei speicherintensiven KI-Workloads entstehen jedoch schneller Engpässe.
- Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
- Garantierte Performance durch vollständig dedizierte CPU-Kerne
- 100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
- Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde
Warum Speicherbandbreite oft wichtiger ist als reine Rechenleistung
Zwei GPUs können dieselbe VRAM-Größe besitzen und trotzdem völlig unterschiedliche Ergebnisse liefern. Ein entscheidender Faktor ist dabei die sogenannte Memory Bandwidth, also die Geschwindigkeit, mit der Daten zwischen GPU und Speicher übertragen werden können.
| GPU | Speicher | VRAM | Speicherbandbreite |
|---|---|---|---|
| NVIDIA RTX 4090 | GDDR6X | 24 GB | ca. 1.008 GB/s |
| NVIDIA RTX 5090 | GDDR7 | 32 GB | ca. 1.792 GB/s |
| NVIDIA L4 | GDDR6 | 24 GB | ca. 300 GB/s |
| NVIDIA A100 80 GB | HBM2e | 80 GB | ca. 2.000 GB/s |
| NVIDIA H100 80 GB SXM | HBM3 | 80 GB | ca. 3.350 GB/s |
| NVIDIA H200 | HBM3e | 141 GB | ca. 4.800 GB/s |
| NVIDIA B200 | HBM3e | 192 GB | ca. 8.000 GB/s |
| NVIDIA B300 / Blackwell Ultra | HBM3e | 288 GB | ca. 8.000 GB/s |
Gerade KI-Inferenz ist häufig „memory-bound“. Das bedeutet, dass die GPU weniger durch die eigentliche Rechenleistung limitiert wird als durch das Nachladen von Modellgewichten aus dem Speicher. Moderne Quantisierungsmethoden können diesen Effekt reduzieren, da weniger Daten bewegt werden müssen.
VRAM für LLMs richtig berechnen
Bei LLMs hängt der Speicherbedarf hauptsächlich von drei Faktoren ab:
- Anzahl der Parameter
- Verwendete Präzision (FP16, BF16, INT8, INT4)
- Zusätzlicher KV-Cache
Für eine erste Abschätzung eignet sich folgende Formel:

Der Faktor 1,2 berücksichtigt Framework-Overhead, CUDA-Puffer und temporäre Speicherbereiche.
Beispiel: 70B-Modell
Ein Modell mit 70 Milliarden Parametern benötigt bei FP16:
- 70 Milliarden Parameter
- 2 Byte pro Parameter
- plus etwa 20 % Overhead
Die Berechnung sieht daher wie folgt aus:
70 × 2 × 1,2 ≈ 168 GB VRAMDas überschreitet die Kapazität vieler einzelner GPUs deutlich und erfordert Multi-GPU-Systeme oder Quantisierung.
Quantisierung: 4-Bit vs. 8-Bit vs. FP16
Quantisierung reduziert den Speicherbedarf, indem Parameter mit weniger Bits gespeichert werden. Zum Beispiel benötigt ein einzelner Modellparameter in FP16 (16 Bit) zwei Byte Speicherplatz. Wird derselbe Parameter stattdessen als INT8 oder INT4 gespeichert, sinkt der Speicherbedarf auf ein beziehungsweise ein halbes Byte. Dadurch lassen sich deutlich größere Modelle auf derselben GPU ausführen, allerdings kann eine sehr starke Quantisierung je nach Modell zu kleinen Genauigkeitsverlusten führen.
| Präzision | Speicher pro Parameter | 70B-Modell |
|---|---|---|
| FP16/BF16 | 2 Byte | ca. 140 GB ohne Overhead |
| INT8 | 1 Byte | ca. 70 GB |
| INT4 | 0,5 Byte | ca. 35 GB |
Dadurch wird aus einem Modell, das mehrere H100-GPUs benötigt, unter Umständen ein Modell, das auf einer einzelnen A100- oder H100-GPU betrieben werden kann. GPTQ-, AWQ- oder QLoRA-Verfahren machen dies möglich. Der Qualitätsverlust bleibt häufig gering, während die Speicherersparnis enorm ausfällt.
GPTQ und AWQ sind Verfahren mit denen große KI-Modelle platzsparender gespeichert werden können, ohne ihre Qualität stark zu beeinträchtigen. QLoRA nutzt quantisierte Modelle zusätzlich für das LLM-Fine-Tuning und macht das Anpassen großer LLMs auch auf GPUs mit begrenztem VRAM möglich.
Was ist der KV-Cache?
Der KV-Cache ist ein spezieller Zwischenspeicher, den Sprachmodelle während der Textgenerierung nutzen. Darin werden Informationen zu bereits verarbeiteten Wörtern und Tokens abgelegt, sodass das Modell diese nicht bei jeder neuen Antwort erneut berechnen muss. Das beschleunigt die Generierung deutlich, benötigt jedoch zusätzlichen VRAM. Je länger die Eingabe und je mehr User gleichzeitig auf das Modell zugreifen, desto größer wird der Speicherbedarf des KV-Caches.
Der KV-Cache wächst also mit:
- Kontextlänge
- Anzahl gleichzeitiger Nutzerinnen und Nutzer
- Modellgröße
- Batch-Größe
Viele Nutzerinnen und Nutzer kalkulieren lediglich die Modellgewichte und wundern sich später über Speicherfehler. Gerade bei langen Kontextfenstern von 32.000 oder 128.000 Tokens kann der KV-Cache mehrere Dutzend Gigabyte zusätzlichen Speicher belegen. Bei produktiven KI-Deployments wird der KV-Cache daher zunehmend selbst zum Flaschenhals.
Inferenz und Training benötigen unterschiedliche VRAM-Mengen
Der Unterschied zwischen Inferenz und Training wird häufig unterschätzt. Bei der Inferenz nutzt das Modell lediglich sein bereits vorhandenes Wissen, um Antworten zu erzeugen. Dafür müssen hauptsächlich die Modellgewichte, der KV-Cache und einige temporäre Speicherbereiche im VRAM gehalten werden.
Beim Training oder Fine-Tuning wird das Modell dagegen aktiv angepasst und lernt aus neuen Daten. Dafür müssen zusätzlich Informationen über Fehlerberechnungen (Gradients), Zwischenergebnisse einzelner Berechnungsschritte (Activations) sowie Daten des Optimizers gespeichert werden. Dadurch steigt der Speicherbedarf deutlich an. Ein Optimizer wie AdamW speichert beispielsweise mehrere zusätzliche Werte für jeden einzelnen Parameter des Modells. In der Praxis benötigt ein vollständiges Training daher abhängig von Optimizer und Methode häufig das Sechs- bis Achtfache des Speichers, der für die reine Inferenz erforderlich wäre.
Ein 70B-Modell, das für die Inferenz etwa 140 GB VRAM benötigt, kann beim vollständigen Fine-Tuning schnell rund 840–1.120 GB VRAM beanspruchen. Deshalb setzen viele Unternehmen auf Verfahren wie LoRA oder QLoRA, bei denen nur ein kleiner Teil der Modellparameter angepasst wird. Dadurch sinkt der Speicherbedarf erheblich und das Fine-Tuning wird auch auf deutlich kleinerer Hardware möglich.
Warum 4K-Rendering andere Anforderungen stellt als KI
Obwohl sowohl KI als auch Rendering stark von VRAM abhängig sind, unterscheiden sich die Belastungsmuster deutlich.
Bei LLMs dominieren große Modellgewichte und KV-Caches. Beim 4K-Rendering müssen dagegen riesige Texturen, Geometriedaten, Schattenkarten, Partikelsysteme und Raytracing-Beschleunigungsstrukturen gleichzeitig im Speicher gehalten werden.
Besonders RAW-Videoformate können hier enorme Datenmengen erzeugen. Mehrere 4K- oder sogar 8K-Streams mit Farbkorrektur, Effekten und KI-basiertem Upscaling belegen schnell mehr als 20 GB VRAM. 3D-Renderer wie Octane oder Redshift laden große Teile einer Szene in den Grafikspeicher. Einige Renderer unterstützen Out-of-Core-Rendering und können Texturen oder Geometriedaten bei Bedarf in den System-RAM auslagern. Das verhindert zwar unter Umständen einen Abbruch, ist aber deutlich langsamer als die Verarbeitung vollständig im VRAM.
Der Unterschied besteht darin, dass Rendering häufig stärker von CUDA-Kernen und Raytracing-Leistung profitiert, während LLMs oft durch Speicherkapazität und Bandbreite limitiert werden. Für beide Anwendungsbereiche gilt jedoch dieselbe Regel: Sobald Daten nicht mehr vollständig in den VRAM passen, bricht die Effizienz massiv ein.
- Kostengünstige vCPUs und leistungsstarke dedizierte Cores
- Höchste Flexibilität ohne Mindestvertragslaufzeit
- Inklusive 24/7 Experten-Support
Vergleichstabelle: Typische VRAM-Anforderungen
Wie viel VRAM tatsächlich benötigt wird, hängt stark vom konkreten Anwendungsfall ab. Während kleinere Sprachmodelle bereits auf GPUs mit 8 bis 16 GB VRAM betrieben werden können, benötigen große LLMs, komplexe 3D-Szenen oder professionelle 4K-Workflows deutlich mehr Speicher. Die folgende Tabelle zeigt typische Richtwerte für verschiedene Einsatzgebiete und geeignete GPU-Klassen.
| Use Case | Minimaler VRAM | Empfohlene GPU |
|---|---|---|
| 7B LLM-Inferenz (INT4) | 6 bis 8 GB | NVIDIA L4 |
| 7B LLM-Inferenz (FP16) | 16 bis 20 GB | RTX 4090 |
| 70B LLM (INT4) | 40 bis 50 GB | A100 80GB |
| 70B LLM (FP16) | 160 GB+ | NVIDIA B300 / Blackwell Ultra oder Multi-GPU-System mit H100, H200, B200 |
| 4K RAW Video Editing | 16 bis 24 GB | RTX 4090 |
| 3D Rendering (kleine bis mittlere Szenen) | 24 GB | RTX 4090 |
| 3D Rendering (große Szenen, professionelle Workloads) | 48 GB | NVIDIA L40S oder RTX 6000 Ada |
Die tatsächlichen Werte können je nach Modell, Kontextfenster, Batch-Größe, Texturgröße oder Projektumfang variieren.
In der Cloud zeigt sich der VRAM-Unterschied besonders deutlich:
- AWS-G5-Instanzen nutzen NVIDIA-A10G-GPUs mit 24 GB Speicher pro GPU und eignen sich daher vor allem für kleinere Modelle, Inferenz, Grafik-Workloads und einfache bis mittlere ML-Aufgaben.
- P4d-Instanzen setzen dagegen auf NVIDIA-A100-GPUs mit 40 GB HBM2 pro GPU und sind stärker auf verteiltes Training, große Datensätze und rechenintensive KI-Workloads ausgelegt.
Entscheidend ist deshalb nicht nur der Instanztyp, sondern wie viel VRAM pro GPU verfügbar ist, wie die GPUs angebunden sind und ob das Modell samt KV-Cache vollständig in den Speicher passt.
HBM3 vs. GDDR6X: Warum professionelle GPUs so teuer sind
Der Hauptunterschied zwischen Consumer-GPUs und professionellen Rechenzentrums-GPUs liegt häufig nicht bei der eigentlichen Rechenleistung, sondern beim Speichersystem. Für viele KI-Anwendungen ist nicht entscheidend, wie schnell eine GPU rechnen kann, sondern wie schnell sie die dafür benötigten Daten aus dem Speicher erhält.
Rechenzentrums-GPUs wie die NVIDIA H100, H200 oder B200 verwenden sogenannten HBM-Speicher (High Bandwidth Memory). Dieser befindet sich direkt neben dem Grafikprozessor auf demselben Chip-Package und ermöglicht extrem hohe Speicherbandbreiten von mehreren Terabyte pro Sekunde. Dadurch können große Sprachmodelle deutlich schneller auf ihre Gewichte und Zwischenergebnisse zugreifen.
Consumer-GPUs nutzen dagegen meist GDDR6X- oder GDDR7-Speicher. Dieser bietet ebenfalls eine sehr hohe Leistung und eignet sich hervorragend für Gaming, 3D-Rendering, Video-Editing und kleinere KI-Workloads. Modelle wie die NVIDIA RTX 5090 verfügen über 32 GB GDDR7 mit einer Speicherbandbreite von rund 1,8 TB/s. Professionelle Workstation-GPUs wie die RTX PRO 6000 Blackwell bieten sogar bis zu 96 GB GDDR7. Die Bandbreite bleibt jedoch deutlich unter modernen HBM3e-Lösungen in Rechenzentrums-GPUs.
Gerade bei großen LLMs mit mehreren Dutzend Milliarden Parametern wird dieser Unterschied spürbar. Solche Modelle müssen ständig große Datenmengen zwischen Speicher und GPU bewegen. Je höher die Speicherbandbreite, desto weniger Zeit verbringt die GPU mit Warten und desto höher fällt der tatsächliche Durchsatz aus. Deshalb kosten Beschleuniger wie die H100, H200 oder B200 trotz teilweise ähnlicher VRAM-Kapazitäten ein Vielfaches. Sie bieten nicht nur mehr Speicher, sondern vor allem ein deutlich leistungsfähigeres Speichersystem, das speziell für KI-Training und Inferenz im Rechenzentrum entwickelt wurde.
Checkliste: Die richtige Cloud-GPU auswählen
Wenn Sie eine Cloud-GPU auswählen, sollten Sie nicht nur auf die Rechenleistung achten. Prüfen Sie stattdessen:
✓ Passt das Modell vollständig in den VRAM?
✓ Welche Quantisierung wird verwendet?
✓ Wie groß wird der KV-Cache?
✓ Handelt es sich um Inferenz oder Training?
✓ Wie hoch ist die Speicherbandbreite?
✓ Werden mehrere GPUs über NVLink verbunden?
✓ Reichen die PCIe-Lanes und die Host-Anbindung aus?
✓ Ist eine günstigere INT4-Variante ausreichend?
Für kleinere Sprachmodelle mit rund 7 Milliarden Parametern reichen häufig GPUs mit 16 bis 24 GB VRAM aus. Wenn Sie jedoch große Modelle mit 70 Milliarden Parametern, lange Kontextfenster oder anspruchsvolle KI-Anwendungen betreiben möchten, benötigen Sie deutlich mehr Grafikspeicher und eine hohe Speicherbandbreite.
Bei der Auswahl einer GPU sollte daher nicht nur auf die Rechenleistung geachtet werden. Entscheidend ist oft, ob das Modell und seine Zwischendaten vollständig in den VRAM passen. Ist das nicht der Fall, müssen Daten in den deutlich langsameren Arbeitsspeicher ausgelagert werden, was die Leistung massiv reduziert.
Ob LLM-Inferenz, Fine-Tuning, 4K-Video-Editing oder 3D-Rendering: In vielen Workloads ist VRAM der entscheidende Engpass. Wer seinen Speicherbedarf realistisch kalkuliert, kann Hardware und Cloud-Ressourcen gezielter auswählen und teure Fehlentscheidungen vermeiden.


