NVIDIA Blackwell B200 vs. Hopper H100: Welche Cloud-GPU für welche AI-Last?

Inhaltsverzeichnis

Die NVIDIA Blackwell-Architektur (B200) ist der technologische Nachfolger der Hopper-Serie (H100), optimiert für Multi-Billionen-Parameter-Modelle. Durch die Einführung von FP4-Rechenoperationen und des NVLink-Switch-Systems bietet Blackwell je nach Workload und Setup eine bis zu 30-fache Echtzeit-LLM-Inferenz-Performance und signifikante Effizienzsteigerungen beim Training massiver neuronaler Netze im Vergleich zum bisherigen Standard H100.

Generationenwechsel in der KI-Beschleunigung

Die NVIDIA-Blackwell-Architektur rund um die B200-GPU ist der direkte Nachfolger der Hopper-Generation mit der NVIDIA H100 und der NVIDIA H200 und wurde speziell für Multi-Billionen-Parameter-Modelle sowie extrem große Inferenz-Cluster entwickelt. Im Fokus stehen höhere Rechenleistung, deutlich bessere Energieeffizienz pro erzeugtem AI-Token und eine wesentlich stärkere Skalierung über NVLink-Domänen hinweg. Im Vergleich zur Hopper-Architektur führt Blackwell erstmals native FP4-Präzision für AI-Inferenz ein und erweitert die Transformer Engine auf eine zweite Generation. Dadurch können Large-Language-Modelle deutlich effizienter betrieben werden.

Die B200 kombiniert bis zu 192 GB HBM3e-Speicher mit rund 8 TB/s Speicherbandbreite und NVLink der fünften Generation mit bis zu 1,8 TB/s GPU-zu-GPU-Bandbreite. Hopper-H100-Systeme arbeiten dagegen typischerweise mit 80 GB HBM3 im SXM-Format oder HBM2e in PCIe-Varianten. Vor allem bei Inferenz-Workloads großer Modelle ergeben sich dadurch massive Unterschiede bei Durchsatz und Energieverbrauch. NVIDIA positioniert Blackwell außerdem als Plattform für sogenannte AI Factories und große NVLink-Domänen mit bis zu 72 GPUs im GB200-NVL72-System.

Cloud GPU VM

Maximale KI-Performance mit Ihrer Cloud GPU VM

Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
Garantierte Performance durch vollständig dedizierte CPU-Kerne
100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde

Vergleichstabelle: Technische Spezifikationen Blackwell vs. Hopper

Merkmal	NVIDIA H100 (Hopper)	NVIDIA B200 (Blackwell)
Architektur	Hopper	Blackwell
Fertigungsprozess	TSMC 4N	TSMC 4NP
Tensor Cores	Generation	Generation
Transformer Engine	1st Gen	2nd Gen
FP4-Unterstützung	✗	✓
FP8-Tensor-Performance mit Sparsity	bis ca. 4 PFLOPS	bis ca. 9 PFLOPS
FP4-Tensor-Performance mit Sparsity	Nicht verfügbar	bis ca. 18 PFLOPS
GPU-Speicher	80 GB HBM3 (SXM) / 80 GB HBM2e (PCIe)	bis zu 192 GB HBM3e
Speicherbandbreite	ca. 3,35 TB/s (SXM)	ca. 8 TB/s
NVLink-Generation	4th Gen	5th Gen
NVLink-Bandbreite pro GPU	bis 900 GB/s	bis 1,8 TB/s
TDP	bis 700 W (SXM)	bis 1000 W
Größter typischer GPU-Verbund	4 bis 8 GPUs pro HGX-/DGX-System	bis zu 72 GPUs im GB200-NVL72-System
Besonderheiten	MIG, Confidential Computing	FP4, Decompression Engine, NVLink-Switch

Architektur-Vergleich: Was Blackwell technisch überlegen macht

Die größte technische Neuerung von Blackwell ist die native Unterstützung von FP4-Rechenoperationen. Im direkten Vergleich „NVIDIA Blackwell vs. Hopper“ ist Letztere primär auf FP8 und BF16 optimiert; Blackwell erlaubt deutlich aggressivere Quantisierung für Inferenz-Workloads. Dadurch steigt insbesondere die Token-Generierung pro Watt massiv an. Gerade bei sehr großen Sprachmodellen reduziert FP4 den Speicherbedarf und die notwendige Speicherbandbreite drastisch.

Zusätzlich integriert Blackwell die zweite Generation der Transformer Engine. Diese kann Präzisionsformate dynamisch zwischen FP4, FP6, FP8 und höheren Formaten anpassen. In der Praxis verbessert das die Effizienz bei Attention-Mechanismen, die KI-Modellen dabei helfen, relevante Informationen innerhalb großer Datenmengen gezielt zu gewichten. Auch Mixture-of-Experts-Modelle, die verschiedene spezialisierte Teilmodelle dynamisch aktivieren, um Rechenleistung effizienter zu nutzen, profitieren von der neuen Generation.

Außerdem wurde das Speicher-Subsystem verbessert. H100-SXM-Systeme erreichen etwa 3,35 TB/s HBM3-Bandbreite, während B200-Systeme rund 8 TB/s HBM3e-Bandbreite liefern. Gerade Training und Inferenz großer Modelle profitieren davon, weil LLMs häufig speicherbandbreitenlimitiert sind.

Blackwell erweitert außerdem das NVLink-System deutlich. Hopper bietet bis zu 900 GB/s NVLink-Bandbreite pro GPU. Blackwell verdoppelt diesen Wert auf bis zu 1,8 TB/s und führt den neuen NVLink-Switch für große GPU-Domänen ein. Dadurch lassen sich GB200-NVL72-Systeme mit 72 GPUs und extrem hoher Interconnect-Bandbreite realisieren.

Neu hinzu kommt außerdem eine hardwarebeschleunigte Decompression Engine. Diese entlastet CPUs bei Datenkompression und kann Datenströme direkt auf der GPU dekomprimieren. Das verbessert insbesondere Data-Analytics- und Retrieval-Workloads. Auch Confidential Computing wurde erweitert, um sensible AI-Workloads besser abzusichern.

Performance-Metriken: Training vs. Inferenz im direkten Benchmark

Sowohl Hopper als auch Blackwell gehören zu den schnellsten AI-Beschleunigern am Markt. Die Unterschiede zeigen sich jedoch stark abhängig vom jeweiligen Workload. Relevant ist vor allem die Unterscheidung zwischen Training großer Modelle und hochskalierter Inferenz.

FP8-Performance

Die H100 war die erste NVIDIA-GPU mit starker FP8-Optimierung und etablierte FP8 praktisch als Standard für moderne LLM-Trainingspipelines. Viele aktuelle Foundation-Modelle wurden auf Hopper-Systemen trainiert. Die B200 steigert die FP8-Leistung je nach Konfiguration und Rechenmodus deutlich und erreicht im DGX-B200-System bis zu 72 PFLOPS FP8 über acht GPUs.

In der Praxis fällt der FP8-Vorsprung gegenüber Hopper allerdings deutlich kleiner aus als bei FP4. Für klassische LLM-Fine-Tuning-Workloads mittelgroßer Modelle bleibt die H100 daher weiterhin sehr konkurrenzfähig. Besonders bei etablierten CUDA- und PyTorch-Stacks existiert bereits eine sehr hohe Software-Reife.

FP4-Inferenz

Der größte Leistungssprung liegt bei FP4-Inferenz. Blackwell führt erstmals native FP4-Unterstützung ein und erreicht je nach Plattform und Rechenmodus bis zu etwa 18 PFLOPS FP4-Tensorleistung pro GPU. Hopper besitzt dagegen keine native FP4-Unterstützung.

Das ist vor allem für sehr große Inferenz-Cluster relevant. Agentic-AI- und Chatbot-Systeme erzeugen pro Sekunde enorme Mengen an Tokens. Durch FP4 sinkt der Speicherbedarf pro Modell; gleichzeitig steigt die Energieeffizienz pro generiertem Token deutlich. NVIDIA spricht abhängig vom Workload von massiven Inferenz-Beschleunigungen gegenüber Hopper-Systemen. Vor allem bei Multi-Billionen-Parameter-Modellen ist der Unterschied erheblich.

Speicher und Skalierung

Die B200 bietet mehr als doppelt so viel Speicher wie eine H100-SXM-GPU. Statt 80 GB stehen bis zu 192 GB HBM3e zur Verfügung. Zusätzlich steigt die Speicherbandbreite auf etwa 8 TB/s. Dadurch können deutlich größere Modelle pro GPU gehalten werden. Gleichzeitig reduziert sich die Notwendigkeit aggressiver Modellpartitionierung über viele GPUs hinweg. Bei Retrieval-Augmented-Generation, langen Kontextfenstern oder Mixture-of-Experts-Modellen ist das relevant.

Energieeffizienz: Betriebskosten und TCO im Rechenzentrum

Die reine Spitzenleistung einer GPU ist im Cloud-Umfeld nur ein Teil der Gleichung. Entscheidend sind außerdem die Betriebskosten pro erzeugtem Token sowie die Gesamtkosten über den Lebenszyklus eines Clusters hinweg.

Leistung pro Watt

Die B200 besitzt eine deutlich höhere TDP als die H100. Während H100-SXM-Systeme typischerweise bis zu 700 Watt aufnehmen, kann die B200 je nach Konfiguration bis zu 1000 Watt benötigen. Trotzdem verbessert sich die Effizienz pro Token deutlich. Der Grund liegt darin, dass Blackwell wesentlich mehr Inferenz-Durchsatz liefert. Gerade bei FP4-Workloads steigt die erzeugte Leistung stärker als die Leistungsaufnahme. Für große AI-Inferenz-Plattformen kann das die Betriebskosten pro Anfrage massiv senken.

Kühlung und Rack-Dichte

Mit steigender Leistungsaufnahme wachsen allerdings auch die Anforderungen an Stromversorgung und Kühlung. Viele Blackwell-Systeme setzen auf Flüssigkühlung oder speziell optimierte AI-Racks. Das erhöht die Einstiegskosten für kleinere Rechenzentren.

Cloud-Provider können diese Infrastrukturkosten leichter amortisieren. Deshalb sind B200-Instanzen zunächst vor allem bei Hyperscalern und spezialisierten GPU-Cloud-Anbietern verfügbar. Hopper-H100-Systeme bleiben dagegen breiter verfügbar und oft einfacher buchbar.

Training vs. Inferenz-TCO

TCO steht für „Total Cost of Ownership“ und beschreibt die gesamten Betriebskosten einer Hardware über ihren gesamten Lebenszyklus hinweg. Dazu gehören nicht nur die Anschaffungskosten, sondern auch Stromverbrauch, Kühlung, Wartung, Cloud-Gebühren und Infrastrukturkosten im Rechenzentrum.

Für viele Unternehmen bleibt die H100 eine wirtschaftlich sinnvolle Wahl. Sie ist bereits weit verbreitet, bei vielen Cloud-Anbietern verfügbar und bestehende AI-Software funktioniert darauf sehr stabil und effizient. Vor allem für klassische KI-Projekte, kleinere Sprachmodelle oder Fine-Tuning-Aufgaben reicht die Leistung völlig aus.

Die neue Blackwell-Generation lohnt sich dagegen vor allem für sehr große KI-Systeme mit extrem vielen Nutzeranfragen oder riesigen Sprachmodellen. Dort kann die B200 deutlich mehr Antworten beziehungsweise Tokens pro Sekunde erzeugen. Obwohl die GPU mehr Strom verbraucht, sinken die Kosten pro Anfrage dann trotzdem, weil die gesamte Verarbeitung wesentlich effizienter abläuft.

Verfügbarkeit bei Cloud-Providern

Die H100 ist inzwischen breit bei großen Cloud-Providern verfügbar. Viele bestehende AI-Trainingscluster basieren auf Hopper-Systemen.

Blackwell-B200-Instanzen werden seit 2025 schrittweise eingeführt. Aufgrund der hohen Nachfrage und komplexeren Infrastruktur erfolgt die Verfügbarkeit zunächst primär in spezialisierten AI-Regionen und High-End-Cluster-Angeboten.

Zwischen H100 und B200 kann die H200 eine wirtschaftlich interessante Übergangslösung sein: Die GPU bleibt Hopper-kompatibel, bietet aber deutlich mehr HBM3e-Speicher und höhere Speicherbandbreite als die H100.

Checkliste: Auswahlkriterien für Cloud-GPU-Instanzen

✓ Ist FP4-Support für die Inferenz-Pipeline kritisch?

✓ Werden sehr große LLMs oder Modelle mit mehreren Billionen Parametern eingesetzt?

✓ Ist Skalierung über große NVLink-Domänen hinweg erforderlich?

✓ Sind lange Kontextfenster oder sehr hohe Token-Raten relevant?

✓ Reicht die H100 für klassische Fine-Tuning-Workloads aus?

✓ Ist Software-Reife wichtiger als maximale Spitzenleistung?

✓ Spielen Stromverbrauch und Kosten pro Token eine zentrale Rolle?

✓ Wird eine hohe Verfügbarkeit bei Cloud-Providern benötigt?

Fazit: Entscheidungshilfe

Die H100 bleibt weiterhin eine sehr leistungsfähige und wirtschaftlich attraktive GPU für viele AI-Workloads. Besonders beim Fine-Tuning mittelgroßer Modelle, klassischen Enterprise-Anwendungen und etablierten CUDA-Stacks bietet Hopper weiterhin ein starkes Preis-Leistungs-Verhältnis.

Blackwell-B200-Systeme adressieren dagegen eine neue Größenordnung von AI-Infrastruktur. Die Kombination aus FP4-Unterstützung, HBM3e-Speicher, NVLink der fünften Generation und der zweiten Transformer Engine macht die Plattform attraktiv für großskalierte Inferenz und Multi-Billion-Parameter-Modelle.

Tipp

Wer heute neue High-End-AI-Infrastruktur plant, sollte neben B200 auch B300 bzw. Blackwell Ultra prüfen. NVIDIA führt HGX B300 inzwischen als verfügbar und positioniert die Plattform mit mehr GPU-Speicher, höherer FP4-Leistung und stärkerer Netzwerkbandbreite gegenüber B200. Besonders für sehr große Inferenz-, Reasoning- und MoE-Workloads kann sich daher ein direkter Vergleich von B200-, GB200- und B300-Angeboten lohnen.

Wer vor allem maximale Effizienz pro generiertem Token benötigt oder sehr große AI-Cluster plant, profitiert deutlich von Blackwell. Für kleinere Teams oder klassische Trainingsworkloads kann die H100 dagegen weiterhin die wirtschaftlich sinnvollere Wahl sein. Entscheidend ist daher weniger die absolute Spitzenleistung als vielmehr der konkrete KI-Workload, die Skalierungsanforderungen und das verfügbare Budget.

Passende Produkte

Cloud GPU VM

10 Jahre Digital Guide: Eine Erfolgsgeschichte

KI-Telefonassistent: Die Live-Demo

KI-Wissen für Ihren Erfolg

Unser Newsletter bringt Ihnen die wichtigsten Insights rund um KI – verständlich, praxisnah und auf den Punkt.

Was ist eine Hopper-GPU?

Mit seinen Hopper-GPUs setzt NVIDIA neue Maßstäbe in der Beschleunigung komplexer Workloads. Um maximale Leistung für KI- und HPC-Anwendungen zu bieten, wurde die neuste GPU-Generation mit einer Vielzahl bahnbrechender Innovationen ausgestattet. Wir erläutern, was Hopper-GPUs so…

GPU Hosting
Lexikon

Titima OngkantongShutterstock

NVIDIA RAPIDS: Data Science auf GPUs beschleunigen

NVIDIA RAPIDS gehört zu den wichtigsten Open-Source-Projekten für GPU-beschleunigte Datenverarbeitung. Die Plattform ermöglicht es, bekannte Python-Bibliotheken wie pandas, scikit-learn und NetworkX durch GPU-optimierte Varianten zu ersetzen. Dadurch lassen sich große Datensätze…

GPU Hosting

sakkmesterkeshutterstock

NVIDIA MIG erklärt: Eine GPU in mehrere isolierte Instanzen aufteilen

Nicht jeder KI-Workload benötigt die Leistung einer kompletten H100 oder B200. Mit NVIDIA MIG lassen sich Rechenzentrums-GPUs in mehrere unabhängige GPU-Instanzen unterteilen, die jeweils über eigene Rechen- und Speicherressourcen verfügen. Das erhöht die Auslastung teurer…

Lexikon
GPU Hosting

watcharashutterstock

NVIDIA H200: Leistungsstarke Data-Center-GPU für KI und HPC

Die NVIDIA H200 ist eine spezialisierte Data-Center-GPU für KI-Anwendungen und High-Performance-Computing. Sie basiert auf der Hopper-Architektur und kombiniert hohe Tensor-Core-Rechenleistung mit sehr großem und schnellem HBM3e-Speicher. Dadurch eignet sie sich besonders für…

GPU Hosting
Lexikon

jijomathaidesignersshutterstock

Die NVIDIA-Blackwell-Mikroarchitektur im Überblick

NVIDIA Blackwell ist eine neue GPU-Architektur, die erhebliche Verbesserungen in Leistung und Effizienz mit sich bringt. Besonders für KI-Anwendungen und Rechenzentren ist die Blackwell-Mikroarchitektur vielversprechend, aber auch für Gamerinnen und Gamer sowie Entwicklerinnen…

GPU Hosting
Lexikon

jijomathaidesignersshutterstock

NVIDIA H100: Leistungsmerkmale, Vorteile und Einsatzgebiete

Maximale Leistung für KI und HPC: Mit ihrer innovativen Hopper-Architektur, HBM3-Speicher und optimierter Rechenleistung für beschleunigtes Computing hat die NVIDIA H100 neue Maßstäbe für GPUs gesetzt. Mit welchen technischen Highlights die H100 punktet, welche Vorteile die GPU…

GPU Hosting
Lexikon

NVIDIA Blackwell B200 vs. Hopper H100: Welche Cloud-GPU für welche AI-Last?

Ge­ne­ra­tio­nen­wech­sel in der KI-Be­schleu­ni­gung

Ver­gleichs­ta­bel­le: Tech­ni­sche Spe­zi­fi­ka­tio­nen Blackwell vs. Hopper

Ar­chi­tek­tur-Vergleich: Was Blackwell technisch überlegen macht

Per­for­mance-Metriken: Training vs. Inferenz im direkten Benchmark

FP8-Per­for­mance

FP4-Inferenz

Speicher und Ska­lie­rung

En­er­gie­ef­fi­zi­enz: Be­triebs­kos­ten und TCO im Re­chen­zen­trum

Leistung pro Watt

Kühlung und Rack-Dichte

Training vs. Inferenz-TCO

Ver­füg­bar­keit bei Cloud-Providern

Check­lis­te: Aus­wahl­kri­te­ri­en für Cloud-GPU-Instanzen

Fazit: Ent­schei­dungs­hil­fe

Generationenwechsel in der KI-Beschleunigung

Vergleichstabelle: Technische Spezifikationen Blackwell vs. Hopper

Architektur-Vergleich: Was Blackwell technisch überlegen macht

Performance-Metriken: Training vs. Inferenz im direkten Benchmark

FP8-Performance

Speicher und Skalierung

Energieeffizienz: Betriebskosten und TCO im Rechenzentrum

Verfügbarkeit bei Cloud-Providern

Checkliste: Auswahlkriterien für Cloud-GPU-Instanzen

Fazit: Entscheidungshilfe