VRAM-Kalkulation 2026: Cloud-GPUs für LLMs & 4K richtig wählen

Inhaltsverzeichnis

VRAM (Video RAM) ist der dedizierte Speicher einer Grafikkarte und stellt bei Large Language Models, 4K-Video-Workflows und 3D-Rendering häufig den eigentlichen Flaschenhals dar. Reicht der verfügbare VRAM nicht aus, können KI-Modelle meist nicht vollständig geladen werden oder brechen mit Speicherfehlern ab. Nur bei explizit konfiguriertem Offloading werden Teile der Daten in den langsameren System-RAM oder auf Datenträger ausgelagert. Das erhöht die Latenz deutlich und kann den Durchsatz massiv reduzieren.

Der VRAM-Flaschenhals erklärt

Viele Nutzerinnen und Nutzer achten beim Kauf einer GPU zuerst auf die Anzahl der CUDA-Cores oder die maximale Rechenleistung in TFLOPS. In der Praxis entscheidet jedoch häufig der verfügbare Grafikspeicher darüber, ob ein KI-Modell oder ein 4K-Projekt überhaupt effizient verarbeitet werden kann.

Bei LLMs müssen die Modellgewichte vollständig oder nahezu vollständig in den VRAM geladen werden. Reicht der Speicher nicht aus, kann das Modell ohne Quantisierung, Multi-GPU-Verteilung oder explizites CPU-/Disk-Offloading häufig nicht vollständig geladen werden. Wird Offloading genutzt, müssen Daten über PCIe zwischen GPU und Hostsystem bewegt werden, was die Latenz erhöht und den Durchsatz deutlich senken kann.

Besonders deutlich wird dies bei großen Modellen wie Llama 3 70B oder Qwen 72B. Die reine Rechenleistung der GPU hilft wenig, wenn die Daten nicht schnell genug bereitgestellt werden können. In solchen Fällen wartet die GPU auf Speicherzugriffe, statt tatsächlich zu rechnen. Deshalb ist VRAM bei KI-Workloads häufig wichtiger als zusätzliche Shader- oder CUDA-Cores. Die verfügbare Speicherkapazität bestimmt, welche Modelle geladen werden können, während die Speicherbandbreite entscheidet, wie schnell die Daten verarbeitet werden.

Für professionelle KI-Anwendungen kommen daher häufig GPUs mit HBM-Speicher (High Bandwidth Memory) zum Einsatz. NVIDIA H100- und H200-Beschleuniger erreichen mit HBM3 beziehungsweise HBM3e Speicherbandbreiten von mehreren Terabyte pro Sekunde. Consumer-GPUs wie die RTX 4090 verwenden dagegen GDDR6X-Speicher mit deutlich geringerer Bandbreite. Zwar ist die Rohleistung ebenfalls sehr hoch, bei speicherintensiven KI-Workloads entstehen jedoch schneller Engpässe.

Cloud GPU VM

Maximale KI-Performance mit Ihrer Cloud GPU VM

Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
Garantierte Performance durch vollständig dedizierte CPU-Kerne
100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde

Warum Speicherbandbreite oft wichtiger ist als reine Rechenleistung

Zwei GPUs können dieselbe VRAM-Größe besitzen und trotzdem völlig unterschiedliche Ergebnisse liefern. Ein entscheidender Faktor ist dabei die sogenannte Memory Bandwidth, also die Geschwindigkeit, mit der Daten zwischen GPU und Speicher übertragen werden können.

GPU	Speicher	VRAM	Speicherbandbreite
NVIDIA RTX 4090	GDDR6X	24 GB	ca. 1.008 GB/s
NVIDIA RTX 5090	GDDR7	32 GB	ca. 1.792 GB/s
NVIDIA L4	GDDR6	24 GB	ca. 300 GB/s
NVIDIA A100 80 GB	HBM2e	80 GB	ca. 2.000 GB/s
NVIDIA H100 80 GB SXM	HBM3	80 GB	ca. 3.350 GB/s
NVIDIA H200	HBM3e	141 GB	ca. 4.800 GB/s
NVIDIA B200	HBM3e	192 GB	ca. 8.000 GB/s
NVIDIA B300 / Blackwell Ultra	HBM3e	288 GB	ca. 8.000 GB/s

Gerade KI-Inferenz ist häufig „memory-bound“. Das bedeutet, dass die GPU weniger durch die eigentliche Rechenleistung limitiert wird als durch das Nachladen von Modellgewichten aus dem Speicher. Moderne Quantisierungsmethoden können diesen Effekt reduzieren, da weniger Daten bewegt werden müssen.

VRAM für LLMs richtig berechnen

Bei LLMs hängt der Speicherbedarf hauptsächlich von drei Faktoren ab:

Anzahl der Parameter
Verwendete Präzision (FP16, BF16, INT8, INT4)
Zusätzlicher KV-Cache

Für eine erste Abschätzung eignet sich folgende Formel:

Die Formel eignet sich, um eine erste Abschätzung zu treffen, wie viel VRAM ungefähr benötigt wird.

Der Faktor 1,2 berücksichtigt Framework-Overhead, CUDA-Puffer und temporäre Speicherbereiche.

Beispiel: 70B-Modell

Ein Modell mit 70 Milliarden Parametern benötigt bei FP16:

70 Milliarden Parameter
2 Byte pro Parameter
plus etwa 20 % Overhead

Die Berechnung sieht daher wie folgt aus:

70 × 2 × 1,2 ≈ 168 GB VRAM

Das überschreitet die Kapazität vieler einzelner GPUs deutlich und erfordert Multi-GPU-Systeme oder Quantisierung.

Quantisierung: 4-Bit vs. 8-Bit vs. FP16

Quantisierung reduziert den Speicherbedarf, indem Parameter mit weniger Bits gespeichert werden. Zum Beispiel benötigt ein einzelner Modellparameter in FP16 (16 Bit) zwei Byte Speicherplatz. Wird derselbe Parameter stattdessen als INT8 oder INT4 gespeichert, sinkt der Speicherbedarf auf ein beziehungsweise ein halbes Byte. Dadurch lassen sich deutlich größere Modelle auf derselben GPU ausführen, allerdings kann eine sehr starke Quantisierung je nach Modell zu kleinen Genauigkeitsverlusten führen.

Präzision	Speicher pro Parameter	70B-Modell
FP16/BF16	2 Byte	ca. 140 GB ohne Overhead
INT8	1 Byte	ca. 70 GB
INT4	0,5 Byte	ca. 35 GB

Dadurch wird aus einem Modell, das mehrere H100-GPUs benötigt, unter Umständen ein Modell, das auf einer einzelnen A100- oder H100-GPU betrieben werden kann. GPTQ-, AWQ- oder QLoRA-Verfahren machen dies möglich. Der Qualitätsverlust bleibt häufig gering, während die Speicherersparnis enorm ausfällt.

Hinweis

GPTQ und AWQ sind Verfahren mit denen große KI-Modelle platzsparender gespeichert werden können, ohne ihre Qualität stark zu beeinträchtigen. QLoRA nutzt quantisierte Modelle zusätzlich für das LLM-Fine-Tuning und macht das Anpassen großer LLMs auch auf GPUs mit begrenztem VRAM möglich.

Was ist der KV-Cache?

Der KV-Cache ist ein spezieller Zwischenspeicher, den Sprachmodelle während der Textgenerierung nutzen. Darin werden Informationen zu bereits verarbeiteten Wörtern und Tokens abgelegt, sodass das Modell diese nicht bei jeder neuen Antwort erneut berechnen muss. Das beschleunigt die Generierung deutlich, benötigt jedoch zusätzlichen VRAM. Je länger die Eingabe und je mehr User gleichzeitig auf das Modell zugreifen, desto größer wird der Speicherbedarf des KV-Caches.

Der KV-Cache wächst also mit:

Kontextlänge
Anzahl gleichzeitiger Nutzerinnen und Nutzer
Modellgröße
Batch-Größe

Viele Nutzerinnen und Nutzer kalkulieren lediglich die Modellgewichte und wundern sich später über Speicherfehler. Gerade bei langen Kontextfenstern von 32.000 oder 128.000 Tokens kann der KV-Cache mehrere Dutzend Gigabyte zusätzlichen Speicher belegen. Bei produktiven KI-Deployments wird der KV-Cache daher zunehmend selbst zum Flaschenhals.

Inferenz und Training benötigen unterschiedliche VRAM-Mengen

Der Unterschied zwischen Inferenz und Training wird häufig unterschätzt. Bei der Inferenz nutzt das Modell lediglich sein bereits vorhandenes Wissen, um Antworten zu erzeugen. Dafür müssen hauptsächlich die Modellgewichte, der KV-Cache und einige temporäre Speicherbereiche im VRAM gehalten werden.

Beim Training oder Fine-Tuning wird das Modell dagegen aktiv angepasst und lernt aus neuen Daten. Dafür müssen zusätzlich Informationen über Fehlerberechnungen (Gradients), Zwischenergebnisse einzelner Berechnungsschritte (Activations) sowie Daten des Optimizers gespeichert werden. Dadurch steigt der Speicherbedarf deutlich an. Ein Optimizer wie AdamW speichert beispielsweise mehrere zusätzliche Werte für jeden einzelnen Parameter des Modells. In der Praxis benötigt ein vollständiges Training daher abhängig von Optimizer und Methode häufig das Sechs- bis Achtfache des Speichers, der für die reine Inferenz erforderlich wäre.

Ein 70B-Modell, das für die Inferenz etwa 140 GB VRAM benötigt, kann beim vollständigen Fine-Tuning schnell rund 840–1.120 GB VRAM beanspruchen. Deshalb setzen viele Unternehmen auf Verfahren wie LoRA oder QLoRA, bei denen nur ein kleiner Teil der Modellparameter angepasst wird. Dadurch sinkt der Speicherbedarf erheblich und das Fine-Tuning wird auch auf deutlich kleinerer Hardware möglich.

Warum 4K-Rendering andere Anforderungen stellt als KI

Obwohl sowohl KI als auch Rendering stark von VRAM abhängig sind, unterscheiden sich die Belastungsmuster deutlich.

Bei LLMs dominieren große Modellgewichte und KV-Caches. Beim 4K-Rendering müssen dagegen riesige Texturen, Geometriedaten, Schattenkarten, Partikelsysteme und Raytracing-Beschleunigungsstrukturen gleichzeitig im Speicher gehalten werden.

Besonders RAW-Videoformate können hier enorme Datenmengen erzeugen. Mehrere 4K- oder sogar 8K-Streams mit Farbkorrektur, Effekten und KI-basiertem Upscaling belegen schnell mehr als 20 GB VRAM. 3D-Renderer wie Octane oder Redshift laden große Teile einer Szene in den Grafikspeicher. Einige Renderer unterstützen Out-of-Core-Rendering und können Texturen oder Geometriedaten bei Bedarf in den System-RAM auslagern. Das verhindert zwar unter Umständen einen Abbruch, ist aber deutlich langsamer als die Verarbeitung vollständig im VRAM.

Der Unterschied besteht darin, dass Rendering häufig stärker von CUDA-Kernen und Raytracing-Leistung profitiert, während LLMs oft durch Speicherkapazität und Bandbreite limitiert werden. Für beide Anwendungsbereiche gilt jedoch dieselbe Regel: Sobald Daten nicht mehr vollständig in den VRAM passen, bricht die Effizienz massiv ein.

Compute Engine

Die ideale IaaS für Ihre Workloads

Kostengünstige vCPUs und leistungsstarke dedizierte Cores
Höchste Flexibilität ohne Mindestvertragslaufzeit
Inklusive 24/7 Experten-Support

Vergleichstabelle: Typische VRAM-Anforderungen

Wie viel VRAM tatsächlich benötigt wird, hängt stark vom konkreten Anwendungsfall ab. Während kleinere Sprachmodelle bereits auf GPUs mit 8 bis 16 GB VRAM betrieben werden können, benötigen große LLMs, komplexe 3D-Szenen oder professionelle 4K-Workflows deutlich mehr Speicher. Die folgende Tabelle zeigt typische Richtwerte für verschiedene Einsatzgebiete und geeignete GPU-Klassen.

Use Case	Minimaler VRAM	Empfohlene GPU
7B LLM-Inferenz (INT4)	6 bis 8 GB	NVIDIA L4
7B LLM-Inferenz (FP16)	16 bis 20 GB	RTX 4090
70B LLM (INT4)	40 bis 50 GB	A100 80GB
70B LLM (FP16)	160 GB+	NVIDIA B300 / Blackwell Ultra oder Multi-GPU-System mit H100, H200, B200
4K RAW Video Editing	16 bis 24 GB	RTX 4090
3D Rendering (kleine bis mittlere Szenen)	24 GB	RTX 4090
3D Rendering (große Szenen, professionelle Workloads)	48 GB	NVIDIA L40S oder RTX 6000 Ada

Die tatsächlichen Werte können je nach Modell, Kontextfenster, Batch-Größe, Texturgröße oder Projektumfang variieren.

In der Cloud zeigt sich der VRAM-Unterschied besonders deutlich:

AWS-G5-Instanzen nutzen NVIDIA-A10G-GPUs mit 24 GB Speicher pro GPU und eignen sich daher vor allem für kleinere Modelle, Inferenz, Grafik-Workloads und einfache bis mittlere ML-Aufgaben.
P4d-Instanzen setzen dagegen auf NVIDIA-A100-GPUs mit 40 GB HBM2 pro GPU und sind stärker auf verteiltes Training, große Datensätze und rechenintensive KI-Workloads ausgelegt.

Entscheidend ist deshalb nicht nur der Instanztyp, sondern wie viel VRAM pro GPU verfügbar ist, wie die GPUs angebunden sind und ob das Modell samt KV-Cache vollständig in den Speicher passt.

HBM3 vs. GDDR6X: Warum professionelle GPUs so teuer sind

Der Hauptunterschied zwischen Consumer-GPUs und professionellen Rechenzentrums-GPUs liegt häufig nicht bei der eigentlichen Rechenleistung, sondern beim Speichersystem. Für viele KI-Anwendungen ist nicht entscheidend, wie schnell eine GPU rechnen kann, sondern wie schnell sie die dafür benötigten Daten aus dem Speicher erhält.

Rechenzentrums-GPUs wie die NVIDIA H100, H200 oder B200 verwenden sogenannten HBM-Speicher (High Bandwidth Memory). Dieser befindet sich direkt neben dem Grafikprozessor auf demselben Chip-Package und ermöglicht extrem hohe Speicherbandbreiten von mehreren Terabyte pro Sekunde. Dadurch können große Sprachmodelle deutlich schneller auf ihre Gewichte und Zwischenergebnisse zugreifen.

Consumer-GPUs nutzen dagegen meist GDDR6X- oder GDDR7-Speicher. Dieser bietet ebenfalls eine sehr hohe Leistung und eignet sich hervorragend für Gaming, 3D-Rendering, Video-Editing und kleinere KI-Workloads. Modelle wie die NVIDIA RTX 5090 verfügen über 32 GB GDDR7 mit einer Speicherbandbreite von rund 1,8 TB/s. Professionelle Workstation-GPUs wie die RTX PRO 6000 Blackwell bieten sogar bis zu 96 GB GDDR7. Die Bandbreite bleibt jedoch deutlich unter modernen HBM3e-Lösungen in Rechenzentrums-GPUs.

Gerade bei großen LLMs mit mehreren Dutzend Milliarden Parametern wird dieser Unterschied spürbar. Solche Modelle müssen ständig große Datenmengen zwischen Speicher und GPU bewegen. Je höher die Speicherbandbreite, desto weniger Zeit verbringt die GPU mit Warten und desto höher fällt der tatsächliche Durchsatz aus. Deshalb kosten Beschleuniger wie die H100, H200 oder B200 trotz teilweise ähnlicher VRAM-Kapazitäten ein Vielfaches. Sie bieten nicht nur mehr Speicher, sondern vor allem ein deutlich leistungsfähigeres Speichersystem, das speziell für KI-Training und Inferenz im Rechenzentrum entwickelt wurde.

Checkliste: Die richtige Cloud-GPU auswählen

Wenn Sie eine Cloud-GPU auswählen, sollten Sie nicht nur auf die Rechenleistung achten. Prüfen Sie stattdessen:

✓ Passt das Modell vollständig in den VRAM?

✓ Welche Quantisierung wird verwendet?

✓ Wie groß wird der KV-Cache?

✓ Handelt es sich um Inferenz oder Training?

✓ Wie hoch ist die Speicherbandbreite?

✓ Werden mehrere GPUs über NVLink verbunden?

✓ Reichen die PCIe-Lanes und die Host-Anbindung aus?

✓ Ist eine günstigere INT4-Variante ausreichend?

Für kleinere Sprachmodelle mit rund 7 Milliarden Parametern reichen häufig GPUs mit 16 bis 24 GB VRAM aus. Wenn Sie jedoch große Modelle mit 70 Milliarden Parametern, lange Kontextfenster oder anspruchsvolle KI-Anwendungen betreiben möchten, benötigen Sie deutlich mehr Grafikspeicher und eine hohe Speicherbandbreite.

Bei der Auswahl einer GPU sollte daher nicht nur auf die Rechenleistung geachtet werden. Entscheidend ist oft, ob das Modell und seine Zwischendaten vollständig in den VRAM passen. Ist das nicht der Fall, müssen Daten in den deutlich langsameren Arbeitsspeicher ausgelagert werden, was die Leistung massiv reduziert.

Ob LLM-Inferenz, Fine-Tuning, 4K-Video-Editing oder 3D-Rendering: In vielen Workloads ist VRAM der entscheidende Engpass. Wer seinen Speicherbedarf realistisch kalkuliert, kann Hardware und Cloud-Ressourcen gezielter auswählen und teure Fehlentscheidungen vermeiden.

Reviewer

Christian Heldmaier
Christian Heldmaier ist ein erfahrener Online-Marketing- und SEO-Spezialist aus Karlsruhe. Seit Juli 2020 ist er als SEO Manager bei IONOS tätig.

Passende Produkte

Cloud GPU VM

10 Jahre Digital Guide: Eine Erfolgsgeschichte

KI-Telefonassistent: Die Live-Demo

KI-Wissen für Ihren Erfolg

Unser Newsletter bringt Ihnen die wichtigsten Insights rund um KI – verständlich, praxisnah und auf den Punkt.

Was ist eine Cloud GPU?

Cloud GPUs kombinieren Rechenpower mit Flexibilität: Sie liefern GPU-Leistung aus der Cloud für anspruchsvolle Aufgaben wie Machine Learning, Simulationen oder Visualisierung. In diesem Artikel erklären wir die Grundlagen, Leistungsmerkmale, Einsatzgebiete sowie die Vor- und…

GPU Hosting
Lexikon

watcharashutterstock

NVIDIA H200: Leistungsstarke Data-Center-GPU für KI und HPC

Die NVIDIA H200 ist eine spezialisierte Data-Center-GPU für KI-Anwendungen und High-Performance-Computing. Sie basiert auf der Hopper-Architektur und kombiniert hohe Tensor-Core-Rechenleistung mit sehr großem und schnellem HBM3e-Speicher. Dadurch eignet sie sich besonders für…

GPU Hosting
Lexikon

sakkmesterkeshutterstock

NVIDIA MIG erklärt: Eine GPU in mehrere isolierte Instanzen aufteilen

Nicht jeder KI-Workload benötigt die Leistung einer kompletten H100 oder B200. Mit NVIDIA MIG lassen sich Rechenzentrums-GPUs in mehrere unabhängige GPU-Instanzen unterteilen, die jeweils über eigene Rechen- und Speicherressourcen verfügen. Das erhöht die Auslastung teurer…

Lexikon
GPU Hosting

jijomathaidesignersshutterstock

NVIDIA H100: Leistungsmerkmale, Vorteile und Einsatzgebiete

Maximale Leistung für KI und HPC: Mit ihrer innovativen Hopper-Architektur, HBM3-Speicher und optimierter Rechenleistung für beschleunigtes Computing hat die NVIDIA H100 neue Maßstäbe für GPUs gesetzt. Mit welchen technischen Highlights die H100 punktet, welche Vorteile die GPU…

GPU Hosting
Lexikon

jijomathaidesignersshutterstock

Die NVIDIA-Blackwell-Mikroarchitektur im Überblick

NVIDIA Blackwell ist eine neue GPU-Architektur, die erhebliche Verbesserungen in Leistung und Effizienz mit sich bringt. Besonders für KI-Anwendungen und Rechenzentren ist die Blackwell-Mikroarchitektur vielversprechend, aber auch für Gamerinnen und Gamer sowie Entwicklerinnen…

GPU Hosting
Lexikon

Titima OngkantongShutterstock

NVIDIA A30: Die Server-GPU im Portrait

Die NVIDIA-GPU A30 stellt eine kostengünstige Alternative zu High-End-GPUs wie der NVIDIA A100 oder H100 dar, die eine schnelle Speicherbandbreite mit hoher Energieeffizienz kombiniert. Unser Guide veranschaulicht, wie sich die A30 in puncto Leistung schlägt, welche Vor-…

GPU Hosting
Lexikon

VRAM-Kal­ku­la­ti­on 2026: Cloud-GPUs für LLMs & 4K richtig wählen

Der VRAM-Fla­schen­hals erklärt

Warum Spei­cher­band­brei­te oft wichtiger ist als reine Re­chen­leis­tung

VRAM für LLMs richtig berechnen

Beispiel: 70B-Modell

Quan­ti­sie­rung: 4-Bit vs. 8-Bit vs. FP16

Was ist der KV-Cache?

Inferenz und Training benötigen un­ter­schied­li­che VRAM-Mengen

Warum 4K-Rendering andere An­for­de­run­gen stellt als KI

Ver­gleichs­ta­bel­le: Typische VRAM-An­for­de­run­gen

HBM3 vs. GDDR6X: Warum pro­fes­sio­nel­le GPUs so teuer sind

Check­lis­te: Die richtige Cloud-GPU auswählen

Reviewer

VRAM-Kalkulation 2026: Cloud-GPUs für LLMs & 4K richtig wählen

Der VRAM-Flaschenhals erklärt

Warum Speicherbandbreite oft wichtiger ist als reine Rechenleistung

Quantisierung: 4-Bit vs. 8-Bit vs. FP16

Inferenz und Training benötigen unterschiedliche VRAM-Mengen

Warum 4K-Rendering andere Anforderungen stellt als KI

Vergleichstabelle: Typische VRAM-Anforderungen

HBM3 vs. GDDR6X: Warum professionelle GPUs so teuer sind

Checkliste: Die richtige Cloud-GPU auswählen