Die NVIDIA Blackwell-Ar­chi­tek­tur (B200) ist der tech­no­lo­gi­sche Nach­fol­ger der Hopper-Serie (H100), optimiert für Multi-Billionen-Parameter-Modelle. Durch die Ein­füh­rung von FP4-Re­chen­ope­ra­tio­nen und des NVLink-Switch-Systems bietet Blackwell je nach Workload und Setup eine bis zu 30-fache Echtzeit-LLM-Inferenz-Per­for­mance und si­gni­fi­kan­te Ef­fi­zi­enz­stei­ge­run­gen beim Training massiver neu­ro­na­ler Netze im Vergleich zum bis­he­ri­gen Standard H100.

Ge­ne­ra­tio­nen­wech­sel in der KI-Be­schleu­ni­gung

Die NVIDIA-Blackwell-Ar­chi­tek­tur rund um die B200-GPU ist der direkte Nach­fol­ger der Hopper-Ge­ne­ra­ti­on mit der NVIDIA H100 und der NVIDIA H200 und wurde speziell für Multi-Billionen-Parameter-Modelle sowie extrem große Inferenz-Cluster ent­wi­ckelt. Im Fokus stehen höhere Re­chen­leis­tung, deutlich bessere En­er­gie­ef­fi­zi­enz pro erzeugtem AI-Token und eine we­sent­lich stärkere Ska­lie­rung über NVLink-Domänen hinweg. Im Vergleich zur Hopper-Ar­chi­tek­tur führt Blackwell erstmals native FP4-Präzision für AI-Inferenz ein und erweitert die Trans­for­mer Engine auf eine zweite Ge­ne­ra­ti­on. Dadurch können Large-Language-Modelle deutlich ef­fi­zi­en­ter betrieben werden.

Die B200 kom­bi­niert bis zu 192 GB HBM3e-Speicher mit rund 8 TB/s Spei­cher­band­brei­te und NVLink der fünften Ge­ne­ra­ti­on mit bis zu 1,8 TB/s GPU-zu-GPU-Band­brei­te. Hopper-H100-Systeme arbeiten dagegen ty­pi­scher­wei­se mit 80 GB HBM3 im SXM-Format oder HBM2e in PCIe-Varianten. Vor allem bei Inferenz-Workloads großer Modelle ergeben sich dadurch massive Un­ter­schie­de bei Durchsatz und En­er­gie­ver­brauch. NVIDIA po­si­tio­niert Blackwell außerdem als Plattform für so­ge­nann­te AI Factories und große NVLink-Domänen mit bis zu 72 GPUs im GB200-NVL72-System.

Cloud GPU VM
Maximale KI-Per­for­mance mit Ihrer Cloud GPU VM
  • Exklusive NVIDIA H200 GPUs für höchste Re­chen­leis­tung
  • Ga­ran­tier­te Per­for­mance durch voll­stän­dig de­di­zier­te CPU-Kerne
  • 100 % Hosting in Deutsch­land für maximale Da­ten­si­cher­heit und DSGVO-Kon­for­mi­tät
  • Einfaches, kal­ku­lier­ba­res Preis­mo­dell mit festem Preis pro Stunde

Ver­gleichs­ta­bel­le: Tech­ni­sche Spe­zi­fi­ka­tio­nen Blackwell vs. Hopper

Merkmal NVIDIA H100 (Hopper) NVIDIA B200 (Blackwell)
Ar­chi­tek­tur Hopper Blackwell
Fer­ti­gungs­pro­zess TSMC 4N TSMC 4NP
Tensor Cores
  1. Ge­ne­ra­ti­on
  1. Ge­ne­ra­ti­on
Trans­for­mer Engine 1st Gen 2nd Gen
FP4-Un­ter­stüt­zung
FP8-Tensor-Per­for­mance mit Sparsity bis ca. 4 PFLOPS bis ca. 9 PFLOPS
FP4-Tensor-Per­for­mance mit Sparsity Nicht verfügbar bis ca. 18 PFLOPS
GPU-Speicher 80 GB HBM3 (SXM) / 80 GB HBM2e (PCIe) bis zu 192 GB HBM3e
Spei­cher­band­brei­te ca. 3,35 TB/s (SXM) ca. 8 TB/s
NVLink-Ge­ne­ra­ti­on 4th Gen 5th Gen
NVLink-Band­brei­te pro GPU bis 900 GB/s bis 1,8 TB/s
TDP bis 700 W (SXM) bis 1000 W
Größter typischer GPU-Verbund 4 bis 8 GPUs pro HGX-/DGX-System bis zu 72 GPUs im GB200-NVL72-System
Be­son­der­hei­ten MIG, Con­fi­den­ti­al Computing FP4, De­com­pres­si­on Engine, NVLink-Switch

Ar­chi­tek­tur-Vergleich: Was Blackwell technisch überlegen macht

Die größte tech­ni­sche Neuerung von Blackwell ist die native Un­ter­stüt­zung von FP4-Re­chen­ope­ra­tio­nen. Im direkten Vergleich „NVIDIA Blackwell vs. Hopper“ ist Letztere primär auf FP8 und BF16 optimiert; Blackwell erlaubt deutlich ag­gres­si­ve­re Quan­ti­sie­rung für Inferenz-Workloads. Dadurch steigt ins­be­son­de­re die Token-Ge­ne­rie­rung pro Watt massiv an. Gerade bei sehr großen Sprach­mo­del­len reduziert FP4 den Spei­cher­be­darf und die not­wen­di­ge Spei­cher­band­brei­te drastisch.

Zu­sätz­lich in­te­griert Blackwell die zweite Ge­ne­ra­ti­on der Trans­for­mer Engine. Diese kann Prä­zi­si­ons­for­ma­te dynamisch zwischen FP4, FP6, FP8 und höheren Formaten anpassen. In der Praxis ver­bes­sert das die Effizienz bei Attention-Me­cha­nis­men, die KI-Modellen dabei helfen, relevante In­for­ma­tio­nen innerhalb großer Da­ten­men­gen gezielt zu gewichten. Auch Mixture-of-Experts-Modelle, die ver­schie­de­ne spe­zia­li­sier­te Teil­mo­del­le dynamisch ak­ti­vie­ren, um Re­chen­leis­tung ef­fi­zi­en­ter zu nutzen, pro­fi­tie­ren von der neuen Ge­ne­ra­ti­on.

Außerdem wurde das Speicher-Subsystem ver­bes­sert. H100-SXM-Systeme erreichen etwa 3,35 TB/s HBM3-Band­brei­te, während B200-Systeme rund 8 TB/s HBM3e-Band­brei­te liefern. Gerade Training und Inferenz großer Modelle pro­fi­tie­ren davon, weil LLMs häufig spei­cher­band­brei­ten­li­mi­tiert sind.

Blackwell erweitert außerdem das NVLink-System deutlich. Hopper bietet bis zu 900 GB/s NVLink-Band­brei­te pro GPU. Blackwell ver­dop­pelt diesen Wert auf bis zu 1,8 TB/s und führt den neuen NVLink-Switch für große GPU-Domänen ein. Dadurch lassen sich GB200-NVL72-Systeme mit 72 GPUs und extrem hoher In­ter­con­nect-Band­brei­te rea­li­sie­ren.

Neu hinzu kommt außerdem eine hard­ware­be­schleu­nig­te De­com­pres­si­on Engine. Diese entlastet CPUs bei Da­ten­kom­pres­si­on und kann Da­ten­strö­me direkt auf der GPU de­kom­pri­mie­ren. Das ver­bes­sert ins­be­son­de­re Data-Analytics- und Retrieval-Workloads. Auch Con­fi­den­ti­al Computing wurde erweitert, um sensible AI-Workloads besser ab­zu­si­chern.

Per­for­mance-Metriken: Training vs. Inferenz im direkten Benchmark

Sowohl Hopper als auch Blackwell gehören zu den schnells­ten AI-Be­schleu­ni­gern am Markt. Die Un­ter­schie­de zeigen sich jedoch stark abhängig vom je­wei­li­gen Workload. Relevant ist vor allem die Un­ter­schei­dung zwischen Training großer Modelle und hoch­ska­lier­ter Inferenz.

FP8-Per­for­mance

Die H100 war die erste NVIDIA-GPU mit starker FP8-Op­ti­mie­rung und eta­blier­te FP8 praktisch als Standard für moderne LLM-Trai­nings­pipe­lines. Viele aktuelle Foun­da­ti­on-Modelle wurden auf Hopper-Systemen trainiert. Die B200 steigert die FP8-Leistung je nach Kon­fi­gu­ra­ti­on und Re­chen­mo­dus deutlich und erreicht im DGX-B200-System bis zu 72 PFLOPS FP8 über acht GPUs.

In der Praxis fällt der FP8-Vorsprung gegenüber Hopper al­ler­dings deutlich kleiner aus als bei FP4. Für klas­si­sche LLM-Fine-Tuning-Workloads mit­tel­gro­ßer Modelle bleibt die H100 daher weiterhin sehr kon­kur­renz­fä­hig. Besonders bei eta­blier­ten CUDA- und PyTorch-Stacks existiert bereits eine sehr hohe Software-Reife.

FP4-Inferenz

Der größte Leis­tungs­sprung liegt bei FP4-Inferenz. Blackwell führt erstmals native FP4-Un­ter­stüt­zung ein und erreicht je nach Plattform und Re­chen­mo­dus bis zu etwa 18 PFLOPS FP4-Ten­sor­leis­tung pro GPU. Hopper besitzt dagegen keine native FP4-Un­ter­stüt­zung.

Das ist vor allem für sehr große Inferenz-Cluster relevant. Agentic-AI- und Chatbot-Systeme erzeugen pro Sekunde enorme Mengen an Tokens. Durch FP4 sinkt der Spei­cher­be­darf pro Modell; gleich­zei­tig steigt die En­er­gie­ef­fi­zi­enz pro ge­ne­rier­tem Token deutlich. NVIDIA spricht abhängig vom Workload von massiven Inferenz-Be­schleu­ni­gun­gen gegenüber Hopper-Systemen. Vor allem bei Multi-Billionen-Parameter-Modellen ist der Un­ter­schied erheblich.

Speicher und Ska­lie­rung

Die B200 bietet mehr als doppelt so viel Speicher wie eine H100-SXM-GPU. Statt 80 GB stehen bis zu 192 GB HBM3e zur Verfügung. Zu­sätz­lich steigt die Spei­cher­band­brei­te auf etwa 8 TB/s. Dadurch können deutlich größere Modelle pro GPU gehalten werden. Gleich­zei­tig reduziert sich die Not­wen­dig­keit ag­gres­si­ver Mo­dell­par­ti­tio­nie­rung über viele GPUs hinweg. Bei Retrieval-Augmented-Ge­ne­ra­ti­on, langen Kon­text­fens­tern oder Mixture-of-Experts-Modellen ist das relevant.

En­er­gie­ef­fi­zi­enz: Be­triebs­kos­ten und TCO im Re­chen­zen­trum

Die reine Spit­zen­leis­tung einer GPU ist im Cloud-Umfeld nur ein Teil der Gleichung. Ent­schei­dend sind außerdem die Be­triebs­kos­ten pro erzeugtem Token sowie die Ge­samt­kos­ten über den Le­bens­zy­klus eines Clusters hinweg.

Leistung pro Watt

Die B200 besitzt eine deutlich höhere TDP als die H100. Während H100-SXM-Systeme ty­pi­scher­wei­se bis zu 700 Watt aufnehmen, kann die B200 je nach Kon­fi­gu­ra­ti­on bis zu 1000 Watt benötigen. Trotzdem ver­bes­sert sich die Effizienz pro Token deutlich. Der Grund liegt darin, dass Blackwell we­sent­lich mehr Inferenz-Durchsatz liefert. Gerade bei FP4-Workloads steigt die erzeugte Leistung stärker als die Leis­tungs­auf­nah­me. Für große AI-Inferenz-Platt­for­men kann das die Be­triebs­kos­ten pro Anfrage massiv senken.

Kühlung und Rack-Dichte

Mit stei­gen­der Leis­tungs­auf­nah­me wachsen al­ler­dings auch die An­for­de­run­gen an Strom­ver­sor­gung und Kühlung. Viele Blackwell-Systeme setzen auf Flüs­sig­küh­lung oder speziell op­ti­mier­te AI-Racks. Das erhöht die Ein­stiegs­kos­ten für kleinere Re­chen­zen­tren.

Cloud-Provider können diese In­fra­struk­tur­kos­ten leichter amor­ti­sie­ren. Deshalb sind B200-Instanzen zunächst vor allem bei Hy­pers­ca­lern und spe­zia­li­sier­ten GPU-Cloud-Anbietern verfügbar. Hopper-H100-Systeme bleiben dagegen breiter verfügbar und oft einfacher buchbar.

Training vs. Inferenz-TCO

TCO steht für „Total Cost of Ownership“ und be­schreibt die gesamten Be­triebs­kos­ten einer Hardware über ihren gesamten Le­bens­zy­klus hinweg. Dazu gehören nicht nur die An­schaf­fungs­kos­ten, sondern auch Strom­ver­brauch, Kühlung, Wartung, Cloud-Gebühren und In­fra­struk­tur­kos­ten im Re­chen­zen­trum.

Für viele Un­ter­neh­men bleibt die H100 eine wirt­schaft­lich sinnvolle Wahl. Sie ist bereits weit ver­brei­tet, bei vielen Cloud-Anbietern verfügbar und be­stehen­de AI-Software funk­tio­niert darauf sehr stabil und effizient. Vor allem für klas­si­sche KI-Projekte, kleinere Sprach­mo­del­le oder Fine-Tuning-Aufgaben reicht die Leistung völlig aus.

Die neue Blackwell-Ge­ne­ra­ti­on lohnt sich dagegen vor allem für sehr große KI-Systeme mit extrem vielen Nut­zer­an­fra­gen oder riesigen Sprach­mo­del­len. Dort kann die B200 deutlich mehr Antworten be­zie­hungs­wei­se Tokens pro Sekunde erzeugen. Obwohl die GPU mehr Strom ver­braucht, sinken die Kosten pro Anfrage dann trotzdem, weil die gesamte Ver­ar­bei­tung we­sent­lich ef­fi­zi­en­ter abläuft.

Ver­füg­bar­keit bei Cloud-Providern

Die H100 ist in­zwi­schen breit bei großen Cloud-Providern verfügbar. Viele be­stehen­de AI-Trai­nings­clus­ter basieren auf Hopper-Systemen.

Blackwell-B200-Instanzen werden seit 2025 schritt­wei­se ein­ge­führt. Aufgrund der hohen Nachfrage und kom­ple­xe­ren In­fra­struk­tur erfolgt die Ver­füg­bar­keit zunächst primär in spe­zia­li­sier­ten AI-Regionen und High-End-Cluster-Angeboten.

Zwischen H100 und B200 kann die H200 eine wirt­schaft­lich in­ter­es­san­te Über­gangs­lö­sung sein: Die GPU bleibt Hopper-kom­pa­ti­bel, bietet aber deutlich mehr HBM3e-Speicher und höhere Spei­cher­band­brei­te als die H100.

Check­lis­te: Aus­wahl­kri­te­ri­en für Cloud-GPU-Instanzen

Ist FP4-Support für die Inferenz-Pipeline kritisch?

Werden sehr große LLMs oder Modelle mit mehreren Billionen Pa­ra­me­tern ein­ge­setzt?

Ist Ska­lie­rung über große NVLink-Domänen hinweg er­for­der­lich?

Sind lange Kon­text­fens­ter oder sehr hohe Token-Raten relevant?

Reicht die H100 für klas­si­sche Fine-Tuning-Workloads aus?

Ist Software-Reife wichtiger als maximale Spit­zen­leis­tung?

Spielen Strom­ver­brauch und Kosten pro Token eine zentrale Rolle?

Wird eine hohe Ver­füg­bar­keit bei Cloud-Providern benötigt?

Fazit: Ent­schei­dungs­hil­fe

Die H100 bleibt weiterhin eine sehr leis­tungs­fä­hi­ge und wirt­schaft­lich at­trak­ti­ve GPU für viele AI-Workloads. Besonders beim Fine-Tuning mit­tel­gro­ßer Modelle, klas­si­schen En­ter­pri­se-An­wen­dun­gen und eta­blier­ten CUDA-Stacks bietet Hopper weiterhin ein starkes Preis-Leistungs-Ver­hält­nis.

Blackwell-B200-Systeme adres­sie­ren dagegen eine neue Grö­ßen­ord­nung von AI-In­fra­struk­tur. Die Kom­bi­na­ti­on aus FP4-Un­ter­stüt­zung, HBM3e-Speicher, NVLink der fünften Ge­ne­ra­ti­on und der zweiten Trans­for­mer Engine macht die Plattform attraktiv für groß­ska­lier­te Inferenz und Multi-Billion-Parameter-Modelle.

Tipp

Wer heute neue High-End-AI-In­fra­struk­tur plant, sollte neben B200 auch B300 bzw. Blackwell Ultra prüfen. NVIDIA führt HGX B300 in­zwi­schen als verfügbar und po­si­tio­niert die Plattform mit mehr GPU-Speicher, höherer FP4-Leistung und stärkerer Netz­werk­band­brei­te gegenüber B200. Besonders für sehr große Inferenz-, Reasoning- und MoE-Workloads kann sich daher ein direkter Vergleich von B200-, GB200- und B300-Angeboten lohnen.

Wer vor allem maximale Effizienz pro ge­ne­rier­tem Token benötigt oder sehr große AI-Cluster plant, pro­fi­tiert deutlich von Blackwell. Für kleinere Teams oder klas­si­sche Trai­nings­wor­kloads kann die H100 dagegen weiterhin die wirt­schaft­lich sinn­vol­le­re Wahl sein. Ent­schei­dend ist daher weniger die absolute Spit­zen­leis­tung als vielmehr der konkrete KI-Workload, die Ska­lie­rungs­an­for­de­run­gen und das ver­füg­ba­re Budget.

Zum Hauptmenü