VRAM (Video RAM) ist der de­di­zier­te Speicher einer Gra­fik­kar­te und stellt bei Large Language Models, 4K-Video-Workflows und 3D-Rendering häufig den ei­gent­li­chen Fla­schen­hals dar. Reicht der ver­füg­ba­re VRAM nicht aus, können KI-Modelle meist nicht voll­stän­dig geladen werden oder brechen mit Spei­cher­feh­lern ab. Nur bei explizit kon­fi­gu­rier­tem Off­loa­ding werden Teile der Daten in den lang­sa­me­ren System-RAM oder auf Da­ten­trä­ger aus­ge­la­gert. Das erhöht die Latenz deutlich und kann den Durchsatz massiv re­du­zie­ren.

Der VRAM-Fla­schen­hals erklärt

Viele Nut­ze­rin­nen und Nutzer achten beim Kauf einer GPU zuerst auf die Anzahl der CUDA-Cores oder die maximale Re­chen­leis­tung in TFLOPS. In der Praxis ent­schei­det jedoch häufig der ver­füg­ba­re Gra­fik­spei­cher darüber, ob ein KI-Modell oder ein 4K-Projekt überhaupt effizient ver­ar­bei­tet werden kann.

Bei LLMs müssen die Mo­dell­ge­wich­te voll­stän­dig oder nahezu voll­stän­dig in den VRAM geladen werden. Reicht der Speicher nicht aus, kann das Modell ohne Quan­ti­sie­rung, Multi-GPU-Ver­tei­lung oder ex­pli­zi­tes CPU-/Disk-Off­loa­ding häufig nicht voll­stän­dig geladen werden. Wird Off­loa­ding genutzt, müssen Daten über PCIe zwischen GPU und Host­sys­tem bewegt werden, was die Latenz erhöht und den Durchsatz deutlich senken kann.

Besonders deutlich wird dies bei großen Modellen wie Llama 3 70B oder Qwen 72B. Die reine Re­chen­leis­tung der GPU hilft wenig, wenn die Daten nicht schnell genug be­reit­ge­stellt werden können. In solchen Fällen wartet die GPU auf Spei­cher­zu­grif­fe, statt tat­säch­lich zu rechnen. Deshalb ist VRAM bei KI-Workloads häufig wichtiger als zu­sätz­li­che Shader- oder CUDA-Cores. Die ver­füg­ba­re Spei­cher­ka­pa­zi­tät bestimmt, welche Modelle geladen werden können, während die Spei­cher­band­brei­te ent­schei­det, wie schnell die Daten ver­ar­bei­tet werden.

Für pro­fes­sio­nel­le KI-An­wen­dun­gen kommen daher häufig GPUs mit HBM-Speicher (High Bandwidth Memory) zum Einsatz. NVIDIA H100- und H200-Be­schleu­ni­ger erreichen mit HBM3 be­zie­hungs­wei­se HBM3e Spei­cher­band­brei­ten von mehreren Terabyte pro Sekunde. Consumer-GPUs wie die RTX 4090 verwenden dagegen GDDR6X-Speicher mit deutlich ge­rin­ge­rer Band­brei­te. Zwar ist die Roh­l­eis­tung ebenfalls sehr hoch, bei spei­cher­in­ten­si­ven KI-Workloads entstehen jedoch schneller Engpässe.

Cloud GPU VM
Maximale KI-Per­for­mance mit Ihrer Cloud GPU VM
  • Exklusive NVIDIA H200 GPUs für höchste Re­chen­leis­tung
  • Ga­ran­tier­te Per­for­mance durch voll­stän­dig de­di­zier­te CPU-Kerne
  • 100 % Hosting in Deutsch­land für maximale Da­ten­si­cher­heit und DSGVO-Kon­for­mi­tät
  • Einfaches, kal­ku­lier­ba­res Preis­mo­dell mit festem Preis pro Stunde

Warum Spei­cher­band­brei­te oft wichtiger ist als reine Re­chen­leis­tung

Zwei GPUs können dieselbe VRAM-Größe besitzen und trotzdem völlig un­ter­schied­li­che Er­geb­nis­se liefern. Ein ent­schei­den­der Faktor ist dabei die so­ge­nann­te Memory Bandwidth, also die Ge­schwin­dig­keit, mit der Daten zwischen GPU und Speicher über­tra­gen werden können.

GPU Speicher VRAM Spei­cher­band­brei­te
NVIDIA RTX 4090 GDDR6X 24 GB ca. 1.008 GB/s
NVIDIA RTX 5090 GDDR7 32 GB ca. 1.792 GB/s
NVIDIA L4 GDDR6 24 GB ca. 300 GB/s
NVIDIA A100 80 GB HBM2e 80 GB ca. 2.000 GB/s
NVIDIA H100 80 GB SXM HBM3 80 GB ca. 3.350 GB/s
NVIDIA H200 HBM3e 141 GB ca. 4.800 GB/s
NVIDIA B200 HBM3e 192 GB ca. 8.000 GB/s
NVIDIA B300 / Blackwell Ultra HBM3e 288 GB ca. 8.000 GB/s

Gerade KI-Inferenz ist häufig „memory-bound“. Das bedeutet, dass die GPU weniger durch die ei­gent­li­che Re­chen­leis­tung limitiert wird als durch das Nachladen von Mo­dell­ge­wich­ten aus dem Speicher. Moderne Quan­ti­sie­rungs­me­tho­den können diesen Effekt re­du­zie­ren, da weniger Daten bewegt werden müssen.

VRAM für LLMs richtig berechnen

Bei LLMs hängt der Spei­cher­be­darf haupt­säch­lich von drei Faktoren ab:

  1. Anzahl der Parameter
  2. Ver­wen­de­te Präzision (FP16, BF16, INT8, INT4)
  3. Zu­sätz­li­cher KV-Cache

Für eine erste Ab­schät­zung eignet sich folgende Formel:

Bild: VRAM-Bedarf berechnen: Formel
Die Formel eignet sich, um eine erste Ab­schät­zung zu treffen, wie viel VRAM ungefähr benötigt wird.

Der Faktor 1,2 be­rück­sich­tigt Framework-Overhead, CUDA-Puffer und temporäre Spei­cher­be­rei­che.

Beispiel: 70B-Modell

Ein Modell mit 70 Mil­li­ar­den Pa­ra­me­tern benötigt bei FP16:

  • 70 Mil­li­ar­den Parameter
  • 2 Byte pro Parameter
  • plus etwa 20 % Overhead

Die Be­rech­nung sieht daher wie folgt aus:

70 × 2 × 1,2 ≈ 168 GB VRAM

Das über­schrei­tet die Kapazität vieler einzelner GPUs deutlich und erfordert Multi-GPU-Systeme oder Quan­ti­sie­rung.

Quan­ti­sie­rung: 4-Bit vs. 8-Bit vs. FP16

Quan­ti­sie­rung reduziert den Spei­cher­be­darf, indem Parameter mit weniger Bits ge­spei­chert werden. Zum Beispiel benötigt ein einzelner Mo­dell­pa­ra­me­ter in FP16 (16 Bit) zwei Byte Spei­cher­platz. Wird derselbe Parameter statt­des­sen als INT8 oder INT4 ge­spei­chert, sinkt der Spei­cher­be­darf auf ein be­zie­hungs­wei­se ein halbes Byte. Dadurch lassen sich deutlich größere Modelle auf derselben GPU ausführen, al­ler­dings kann eine sehr starke Quan­ti­sie­rung je nach Modell zu kleinen Ge­nau­ig­keits­ver­lus­ten führen.

Präzision Speicher pro Parameter 70B-Modell
FP16/BF16 2 Byte ca. 140 GB ohne Overhead
INT8 1 Byte ca. 70 GB
INT4 0,5 Byte ca. 35 GB

Dadurch wird aus einem Modell, das mehrere H100-GPUs benötigt, unter Umständen ein Modell, das auf einer einzelnen A100- oder H100-GPU betrieben werden kann. GPTQ-, AWQ- oder QLoRA-Verfahren machen dies möglich. Der Qua­li­täts­ver­lust bleibt häufig gering, während die Spei­cher­er­spar­nis enorm ausfällt.

Hinweis

GPTQ und AWQ sind Verfahren mit denen große KI-Modelle platz­spa­ren­der ge­spei­chert werden können, ohne ihre Qualität stark zu be­ein­träch­ti­gen. QLoRA nutzt quan­ti­sier­te Modelle zu­sätz­lich für das LLM-Fine-Tuning und macht das Anpassen großer LLMs auch auf GPUs mit be­grenz­tem VRAM möglich.

Was ist der KV-Cache?

Der KV-Cache ist ein spe­zi­el­ler Zwi­schen­spei­cher, den Sprach­mo­del­le während der Text­ge­ne­rie­rung nutzen. Darin werden In­for­ma­tio­nen zu bereits ver­ar­bei­te­ten Wörtern und Tokens abgelegt, sodass das Modell diese nicht bei jeder neuen Antwort erneut berechnen muss. Das be­schleu­nigt die Ge­ne­rie­rung deutlich, benötigt jedoch zu­sätz­li­chen VRAM. Je länger die Eingabe und je mehr User gleich­zei­tig auf das Modell zugreifen, desto größer wird der Spei­cher­be­darf des KV-Caches.

Der KV-Cache wächst also mit:

  • Kon­text­län­ge
  • Anzahl gleich­zei­ti­ger Nut­ze­rin­nen und Nutzer
  • Mo­dell­grö­ße
  • Batch-Größe

Viele Nut­ze­rin­nen und Nutzer kal­ku­lie­ren lediglich die Mo­dell­ge­wich­te und wundern sich später über Spei­cher­feh­ler. Gerade bei langen Kon­text­fens­tern von 32.000 oder 128.000 Tokens kann der KV-Cache mehrere Dutzend Gigabyte zu­sätz­li­chen Speicher belegen. Bei pro­duk­ti­ven KI-De­ploy­ments wird der KV-Cache daher zunehmend selbst zum Fla­schen­hals.

Inferenz und Training benötigen un­ter­schied­li­che VRAM-Mengen

Der Un­ter­schied zwischen Inferenz und Training wird häufig un­ter­schätzt. Bei der Inferenz nutzt das Modell lediglich sein bereits vor­han­de­nes Wissen, um Antworten zu erzeugen. Dafür müssen haupt­säch­lich die Mo­dell­ge­wich­te, der KV-Cache und einige temporäre Spei­cher­be­rei­che im VRAM gehalten werden.

Beim Training oder Fine-Tuning wird das Modell dagegen aktiv angepasst und lernt aus neuen Daten. Dafür müssen zu­sätz­lich In­for­ma­tio­nen über Feh­ler­be­rech­nun­gen (Gradients), Zwi­schen­er­geb­nis­se einzelner Be­rech­nungs­schrit­te (Ac­ti­va­tions) sowie Daten des Op­ti­mi­zers ge­spei­chert werden. Dadurch steigt der Spei­cher­be­darf deutlich an. Ein Optimizer wie AdamW speichert bei­spiels­wei­se mehrere zu­sätz­li­che Werte für jeden einzelnen Parameter des Modells. In der Praxis benötigt ein voll­stän­di­ges Training daher abhängig von Optimizer und Methode häufig das Sechs- bis Achtfache des Speichers, der für die reine Inferenz er­for­der­lich wäre.

Ein 70B-Modell, das für die Inferenz etwa 140 GB VRAM benötigt, kann beim voll­stän­di­gen Fine-Tuning schnell rund 840–1.120 GB VRAM be­an­spru­chen. Deshalb setzen viele Un­ter­neh­men auf Verfahren wie LoRA oder QLoRA, bei denen nur ein kleiner Teil der Mo­dell­pa­ra­me­ter angepasst wird. Dadurch sinkt der Spei­cher­be­darf erheblich und das Fine-Tuning wird auch auf deutlich kleinerer Hardware möglich.

Warum 4K-Rendering andere An­for­de­run­gen stellt als KI

Obwohl sowohl KI als auch Rendering stark von VRAM abhängig sind, un­ter­schei­den sich die Be­las­tungs­mus­ter deutlich.

Bei LLMs do­mi­nie­ren große Mo­dell­ge­wich­te und KV-Caches. Beim 4K-Rendering müssen dagegen riesige Texturen, Geo­me­trie­da­ten, Schat­ten­kar­ten, Par­ti­kel­sys­te­me und Ray­tra­cing-Be­schleu­ni­gungs­struk­tu­ren gleich­zei­tig im Speicher gehalten werden.

Besonders RAW-Vi­deo­for­ma­te können hier enorme Da­ten­men­gen erzeugen. Mehrere 4K- oder sogar 8K-Streams mit Farb­kor­rek­tur, Effekten und KI-basiertem Upscaling belegen schnell mehr als 20 GB VRAM. 3D-Renderer wie Octane oder Redshift laden große Teile einer Szene in den Gra­fik­spei­cher. Einige Renderer un­ter­stüt­zen Out-of-Core-Rendering und können Texturen oder Geo­me­trie­da­ten bei Bedarf in den System-RAM auslagern. Das ver­hin­dert zwar unter Umständen einen Abbruch, ist aber deutlich langsamer als die Ver­ar­bei­tung voll­stän­dig im VRAM.

Der Un­ter­schied besteht darin, dass Rendering häufig stärker von CUDA-Kernen und Ray­tra­cing-Leistung pro­fi­tiert, während LLMs oft durch Spei­cher­ka­pa­zi­tät und Band­brei­te limitiert werden. Für beide An­wen­dungs­be­rei­che gilt jedoch dieselbe Regel: Sobald Daten nicht mehr voll­stän­dig in den VRAM passen, bricht die Effizienz massiv ein.

Compute Engine
Die ideale IaaS für Ihre Workloads
  • Kos­ten­güns­ti­ge vCPUs und leis­tungs­star­ke de­di­zier­te Cores
  • Höchste Fle­xi­bi­li­tät ohne Min­dest­ver­trags­lauf­zeit
  • Inklusive 24/7 Experten-Support

Ver­gleichs­ta­bel­le: Typische VRAM-An­for­de­run­gen

Wie viel VRAM tat­säch­lich benötigt wird, hängt stark vom konkreten An­wen­dungs­fall ab. Während kleinere Sprach­mo­del­le bereits auf GPUs mit 8 bis 16 GB VRAM betrieben werden können, benötigen große LLMs, komplexe 3D-Szenen oder pro­fes­sio­nel­le 4K-Workflows deutlich mehr Speicher. Die folgende Tabelle zeigt typische Richt­wer­te für ver­schie­de­ne Ein­satz­ge­bie­te und geeignete GPU-Klassen.

Use Case Minimaler VRAM Emp­foh­le­ne GPU
7B LLM-Inferenz (INT4) 6 bis 8 GB NVIDIA L4
7B LLM-Inferenz (FP16) 16 bis 20 GB RTX 4090
70B LLM (INT4) 40 bis 50 GB A100 80GB
70B LLM (FP16) 160 GB+ NVIDIA B300 / Blackwell Ultra oder Multi-GPU-System mit H100, H200, B200
4K RAW Video Editing 16 bis 24 GB RTX 4090
3D Rendering (kleine bis mittlere Szenen) 24 GB RTX 4090
3D Rendering (große Szenen, pro­fes­sio­nel­le Workloads) 48 GB NVIDIA L40S oder RTX 6000 Ada

Die tat­säch­li­chen Werte können je nach Modell, Kon­text­fens­ter, Batch-Größe, Tex­tur­grö­ße oder Pro­jekt­um­fang variieren.

In der Cloud zeigt sich der VRAM-Un­ter­schied besonders deutlich:

  • AWS-G5-Instanzen nutzen NVIDIA-A10G-GPUs mit 24 GB Speicher pro GPU und eignen sich daher vor allem für kleinere Modelle, Inferenz, Grafik-Workloads und einfache bis mittlere ML-Aufgaben.
  • P4d-Instanzen setzen dagegen auf NVIDIA-A100-GPUs mit 40 GB HBM2 pro GPU und sind stärker auf ver­teil­tes Training, große Da­ten­sät­ze und re­chen­in­ten­si­ve KI-Workloads ausgelegt.

Ent­schei­dend ist deshalb nicht nur der In­stanz­typ, sondern wie viel VRAM pro GPU verfügbar ist, wie die GPUs an­ge­bun­den sind und ob das Modell samt KV-Cache voll­stän­dig in den Speicher passt.

HBM3 vs. GDDR6X: Warum pro­fes­sio­nel­le GPUs so teuer sind

Der Haupt­un­ter­schied zwischen Consumer-GPUs und pro­fes­sio­nel­len Re­chen­zen­trums-GPUs liegt häufig nicht bei der ei­gent­li­chen Re­chen­leis­tung, sondern beim Spei­cher­sys­tem. Für viele KI-An­wen­dun­gen ist nicht ent­schei­dend, wie schnell eine GPU rechnen kann, sondern wie schnell sie die dafür be­nö­tig­ten Daten aus dem Speicher erhält.

Re­chen­zen­trums-GPUs wie die NVIDIA H100, H200 oder B200 verwenden so­ge­nann­ten HBM-Speicher (High Bandwidth Memory). Dieser befindet sich direkt neben dem Gra­fik­pro­zes­sor auf demselben Chip-Package und er­mög­licht extrem hohe Spei­cher­band­brei­ten von mehreren Terabyte pro Sekunde. Dadurch können große Sprach­mo­del­le deutlich schneller auf ihre Gewichte und Zwi­schen­er­geb­nis­se zugreifen.

Consumer-GPUs nutzen dagegen meist GDDR6X- oder GDDR7-Speicher. Dieser bietet ebenfalls eine sehr hohe Leistung und eignet sich her­vor­ra­gend für Gaming, 3D-Rendering, Video-Editing und kleinere KI-Workloads. Modelle wie die NVIDIA RTX 5090 verfügen über 32 GB GDDR7 mit einer Spei­cher­band­brei­te von rund 1,8 TB/s. Pro­fes­sio­nel­le Work­sta­tion-GPUs wie die RTX PRO 6000 Blackwell bieten sogar bis zu 96 GB GDDR7. Die Band­brei­te bleibt jedoch deutlich unter modernen HBM3e-Lösungen in Re­chen­zen­trums-GPUs.

Gerade bei großen LLMs mit mehreren Dutzend Mil­li­ar­den Pa­ra­me­tern wird dieser Un­ter­schied spürbar. Solche Modelle müssen ständig große Da­ten­men­gen zwischen Speicher und GPU bewegen. Je höher die Spei­cher­band­brei­te, desto weniger Zeit verbringt die GPU mit Warten und desto höher fällt der tat­säch­li­che Durchsatz aus. Deshalb kosten Be­schleu­ni­ger wie die H100, H200 oder B200 trotz teilweise ähnlicher VRAM-Ka­pa­zi­tä­ten ein Viel­fa­ches. Sie bieten nicht nur mehr Speicher, sondern vor allem ein deutlich leis­tungs­fä­hi­ge­res Spei­cher­sys­tem, das speziell für KI-Training und Inferenz im Re­chen­zen­trum ent­wi­ckelt wurde.

Check­lis­te: Die richtige Cloud-GPU auswählen

Wenn Sie eine Cloud-GPU auswählen, sollten Sie nicht nur auf die Re­chen­leis­tung achten. Prüfen Sie statt­des­sen:

Passt das Modell voll­stän­dig in den VRAM?

Welche Quan­ti­sie­rung wird verwendet?

Wie groß wird der KV-Cache?

Handelt es sich um Inferenz oder Training?

Wie hoch ist die Spei­cher­band­brei­te?

Werden mehrere GPUs über NVLink verbunden?

Reichen die PCIe-Lanes und die Host-Anbindung aus?

Ist eine güns­ti­ge­re INT4-Variante aus­rei­chend?

Für kleinere Sprach­mo­del­le mit rund 7 Mil­li­ar­den Pa­ra­me­tern reichen häufig GPUs mit 16 bis 24 GB VRAM aus. Wenn Sie jedoch große Modelle mit 70 Mil­li­ar­den Pa­ra­me­tern, lange Kon­text­fens­ter oder an­spruchs­vol­le KI-An­wen­dun­gen betreiben möchten, benötigen Sie deutlich mehr Gra­fik­spei­cher und eine hohe Spei­cher­band­brei­te.

Bei der Auswahl einer GPU sollte daher nicht nur auf die Re­chen­leis­tung geachtet werden. Ent­schei­dend ist oft, ob das Modell und seine Zwi­schen­da­ten voll­stän­dig in den VRAM passen. Ist das nicht der Fall, müssen Daten in den deutlich lang­sa­me­ren Ar­beits­spei­cher aus­ge­la­gert werden, was die Leistung massiv reduziert.

Ob LLM-Inferenz, Fine-Tuning, 4K-Video-Editing oder 3D-Rendering: In vielen Workloads ist VRAM der ent­schei­den­de Engpass. Wer seinen Spei­cher­be­darf rea­lis­tisch kal­ku­liert, kann Hardware und Cloud-Res­sour­cen gezielter auswählen und teure Fehl­ent­schei­dun­gen vermeiden.

Reviewer

Zum Hauptmenü