NVIDIA Blackwell B200 vs. Hopper H100: Welche Cloud-GPU für welche AI-Last?
Die NVIDIA Blackwell-Architektur (B200) ist der technologische Nachfolger der Hopper-Serie (H100), optimiert für Multi-Billionen-Parameter-Modelle. Durch die Einführung von FP4-Rechenoperationen und des NVLink-Switch-Systems bietet Blackwell je nach Workload und Setup eine bis zu 30-fache Echtzeit-LLM-Inferenz-Performance und signifikante Effizienzsteigerungen beim Training massiver neuronaler Netze im Vergleich zum bisherigen Standard H100.
Generationenwechsel in der KI-Beschleunigung
Die NVIDIA-Blackwell-Architektur rund um die B200-GPU ist der direkte Nachfolger der Hopper-Generation mit der NVIDIA H100 und der NVIDIA H200 und wurde speziell für Multi-Billionen-Parameter-Modelle sowie extrem große Inferenz-Cluster entwickelt. Im Fokus stehen höhere Rechenleistung, deutlich bessere Energieeffizienz pro erzeugtem AI-Token und eine wesentlich stärkere Skalierung über NVLink-Domänen hinweg. Im Vergleich zur Hopper-Architektur führt Blackwell erstmals native FP4-Präzision für AI-Inferenz ein und erweitert die Transformer Engine auf eine zweite Generation. Dadurch können Large-Language-Modelle deutlich effizienter betrieben werden.
Die B200 kombiniert bis zu 192 GB HBM3e-Speicher mit rund 8 TB/s Speicherbandbreite und NVLink der fünften Generation mit bis zu 1,8 TB/s GPU-zu-GPU-Bandbreite. Hopper-H100-Systeme arbeiten dagegen typischerweise mit 80 GB HBM3 im SXM-Format oder HBM2e in PCIe-Varianten. Vor allem bei Inferenz-Workloads großer Modelle ergeben sich dadurch massive Unterschiede bei Durchsatz und Energieverbrauch. NVIDIA positioniert Blackwell außerdem als Plattform für sogenannte AI Factories und große NVLink-Domänen mit bis zu 72 GPUs im GB200-NVL72-System.
- Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
- Garantierte Performance durch vollständig dedizierte CPU-Kerne
- 100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
- Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde
Vergleichstabelle: Technische Spezifikationen Blackwell vs. Hopper
| Merkmal | NVIDIA H100 (Hopper) | NVIDIA B200 (Blackwell) |
|---|---|---|
| Architektur | Hopper | Blackwell |
| Fertigungsprozess | TSMC 4N | TSMC 4NP |
| Tensor Cores |
|
|
| Transformer Engine | 1st Gen | 2nd Gen |
| FP4-Unterstützung | ✗ | ✓ |
| FP8-Tensor-Performance mit Sparsity | bis ca. 4 PFLOPS | bis ca. 9 PFLOPS |
| FP4-Tensor-Performance mit Sparsity | Nicht verfügbar | bis ca. 18 PFLOPS |
| GPU-Speicher | 80 GB HBM3 (SXM) / 80 GB HBM2e (PCIe) | bis zu 192 GB HBM3e |
| Speicherbandbreite | ca. 3,35 TB/s (SXM) | ca. 8 TB/s |
| NVLink-Generation | 4th Gen | 5th Gen |
| NVLink-Bandbreite pro GPU | bis 900 GB/s | bis 1,8 TB/s |
| TDP | bis 700 W (SXM) | bis 1000 W |
| Größter typischer GPU-Verbund | 4 bis 8 GPUs pro HGX-/DGX-System | bis zu 72 GPUs im GB200-NVL72-System |
| Besonderheiten | MIG, Confidential Computing | FP4, Decompression Engine, NVLink-Switch |
Architektur-Vergleich: Was Blackwell technisch überlegen macht
Die größte technische Neuerung von Blackwell ist die native Unterstützung von FP4-Rechenoperationen. Im direkten Vergleich „NVIDIA Blackwell vs. Hopper“ ist Letztere primär auf FP8 und BF16 optimiert; Blackwell erlaubt deutlich aggressivere Quantisierung für Inferenz-Workloads. Dadurch steigt insbesondere die Token-Generierung pro Watt massiv an. Gerade bei sehr großen Sprachmodellen reduziert FP4 den Speicherbedarf und die notwendige Speicherbandbreite drastisch.
Zusätzlich integriert Blackwell die zweite Generation der Transformer Engine. Diese kann Präzisionsformate dynamisch zwischen FP4, FP6, FP8 und höheren Formaten anpassen. In der Praxis verbessert das die Effizienz bei Attention-Mechanismen, die KI-Modellen dabei helfen, relevante Informationen innerhalb großer Datenmengen gezielt zu gewichten. Auch Mixture-of-Experts-Modelle, die verschiedene spezialisierte Teilmodelle dynamisch aktivieren, um Rechenleistung effizienter zu nutzen, profitieren von der neuen Generation.
Außerdem wurde das Speicher-Subsystem verbessert. H100-SXM-Systeme erreichen etwa 3,35 TB/s HBM3-Bandbreite, während B200-Systeme rund 8 TB/s HBM3e-Bandbreite liefern. Gerade Training und Inferenz großer Modelle profitieren davon, weil LLMs häufig speicherbandbreitenlimitiert sind.
Blackwell erweitert außerdem das NVLink-System deutlich. Hopper bietet bis zu 900 GB/s NVLink-Bandbreite pro GPU. Blackwell verdoppelt diesen Wert auf bis zu 1,8 TB/s und führt den neuen NVLink-Switch für große GPU-Domänen ein. Dadurch lassen sich GB200-NVL72-Systeme mit 72 GPUs und extrem hoher Interconnect-Bandbreite realisieren.
Neu hinzu kommt außerdem eine hardwarebeschleunigte Decompression Engine. Diese entlastet CPUs bei Datenkompression und kann Datenströme direkt auf der GPU dekomprimieren. Das verbessert insbesondere Data-Analytics- und Retrieval-Workloads. Auch Confidential Computing wurde erweitert, um sensible AI-Workloads besser abzusichern.
Performance-Metriken: Training vs. Inferenz im direkten Benchmark
Sowohl Hopper als auch Blackwell gehören zu den schnellsten AI-Beschleunigern am Markt. Die Unterschiede zeigen sich jedoch stark abhängig vom jeweiligen Workload. Relevant ist vor allem die Unterscheidung zwischen Training großer Modelle und hochskalierter Inferenz.
FP8-Performance
Die H100 war die erste NVIDIA-GPU mit starker FP8-Optimierung und etablierte FP8 praktisch als Standard für moderne LLM-Trainingspipelines. Viele aktuelle Foundation-Modelle wurden auf Hopper-Systemen trainiert. Die B200 steigert die FP8-Leistung je nach Konfiguration und Rechenmodus deutlich und erreicht im DGX-B200-System bis zu 72 PFLOPS FP8 über acht GPUs.
In der Praxis fällt der FP8-Vorsprung gegenüber Hopper allerdings deutlich kleiner aus als bei FP4. Für klassische LLM-Fine-Tuning-Workloads mittelgroßer Modelle bleibt die H100 daher weiterhin sehr konkurrenzfähig. Besonders bei etablierten CUDA- und PyTorch-Stacks existiert bereits eine sehr hohe Software-Reife.
FP4-Inferenz
Der größte Leistungssprung liegt bei FP4-Inferenz. Blackwell führt erstmals native FP4-Unterstützung ein und erreicht je nach Plattform und Rechenmodus bis zu etwa 18 PFLOPS FP4-Tensorleistung pro GPU. Hopper besitzt dagegen keine native FP4-Unterstützung.
Das ist vor allem für sehr große Inferenz-Cluster relevant. Agentic-AI- und Chatbot-Systeme erzeugen pro Sekunde enorme Mengen an Tokens. Durch FP4 sinkt der Speicherbedarf pro Modell; gleichzeitig steigt die Energieeffizienz pro generiertem Token deutlich. NVIDIA spricht abhängig vom Workload von massiven Inferenz-Beschleunigungen gegenüber Hopper-Systemen. Vor allem bei Multi-Billionen-Parameter-Modellen ist der Unterschied erheblich.
Speicher und Skalierung
Die B200 bietet mehr als doppelt so viel Speicher wie eine H100-SXM-GPU. Statt 80 GB stehen bis zu 192 GB HBM3e zur Verfügung. Zusätzlich steigt die Speicherbandbreite auf etwa 8 TB/s. Dadurch können deutlich größere Modelle pro GPU gehalten werden. Gleichzeitig reduziert sich die Notwendigkeit aggressiver Modellpartitionierung über viele GPUs hinweg. Bei Retrieval-Augmented-Generation, langen Kontextfenstern oder Mixture-of-Experts-Modellen ist das relevant.
Energieeffizienz: Betriebskosten und TCO im Rechenzentrum
Die reine Spitzenleistung einer GPU ist im Cloud-Umfeld nur ein Teil der Gleichung. Entscheidend sind außerdem die Betriebskosten pro erzeugtem Token sowie die Gesamtkosten über den Lebenszyklus eines Clusters hinweg.
Leistung pro Watt
Die B200 besitzt eine deutlich höhere TDP als die H100. Während H100-SXM-Systeme typischerweise bis zu 700 Watt aufnehmen, kann die B200 je nach Konfiguration bis zu 1000 Watt benötigen. Trotzdem verbessert sich die Effizienz pro Token deutlich. Der Grund liegt darin, dass Blackwell wesentlich mehr Inferenz-Durchsatz liefert. Gerade bei FP4-Workloads steigt die erzeugte Leistung stärker als die Leistungsaufnahme. Für große AI-Inferenz-Plattformen kann das die Betriebskosten pro Anfrage massiv senken.
Kühlung und Rack-Dichte
Mit steigender Leistungsaufnahme wachsen allerdings auch die Anforderungen an Stromversorgung und Kühlung. Viele Blackwell-Systeme setzen auf Flüssigkühlung oder speziell optimierte AI-Racks. Das erhöht die Einstiegskosten für kleinere Rechenzentren.
Cloud-Provider können diese Infrastrukturkosten leichter amortisieren. Deshalb sind B200-Instanzen zunächst vor allem bei Hyperscalern und spezialisierten GPU-Cloud-Anbietern verfügbar. Hopper-H100-Systeme bleiben dagegen breiter verfügbar und oft einfacher buchbar.
Training vs. Inferenz-TCO
TCO steht für „Total Cost of Ownership“ und beschreibt die gesamten Betriebskosten einer Hardware über ihren gesamten Lebenszyklus hinweg. Dazu gehören nicht nur die Anschaffungskosten, sondern auch Stromverbrauch, Kühlung, Wartung, Cloud-Gebühren und Infrastrukturkosten im Rechenzentrum.
Für viele Unternehmen bleibt die H100 eine wirtschaftlich sinnvolle Wahl. Sie ist bereits weit verbreitet, bei vielen Cloud-Anbietern verfügbar und bestehende AI-Software funktioniert darauf sehr stabil und effizient. Vor allem für klassische KI-Projekte, kleinere Sprachmodelle oder Fine-Tuning-Aufgaben reicht die Leistung völlig aus.
Die neue Blackwell-Generation lohnt sich dagegen vor allem für sehr große KI-Systeme mit extrem vielen Nutzeranfragen oder riesigen Sprachmodellen. Dort kann die B200 deutlich mehr Antworten beziehungsweise Tokens pro Sekunde erzeugen. Obwohl die GPU mehr Strom verbraucht, sinken die Kosten pro Anfrage dann trotzdem, weil die gesamte Verarbeitung wesentlich effizienter abläuft.
Verfügbarkeit bei Cloud-Providern
Die H100 ist inzwischen breit bei großen Cloud-Providern verfügbar. Viele bestehende AI-Trainingscluster basieren auf Hopper-Systemen.
Blackwell-B200-Instanzen werden seit 2025 schrittweise eingeführt. Aufgrund der hohen Nachfrage und komplexeren Infrastruktur erfolgt die Verfügbarkeit zunächst primär in spezialisierten AI-Regionen und High-End-Cluster-Angeboten.
Zwischen H100 und B200 kann die H200 eine wirtschaftlich interessante Übergangslösung sein: Die GPU bleibt Hopper-kompatibel, bietet aber deutlich mehr HBM3e-Speicher und höhere Speicherbandbreite als die H100.
Checkliste: Auswahlkriterien für Cloud-GPU-Instanzen
✓ Ist FP4-Support für die Inferenz-Pipeline kritisch?
✓ Werden sehr große LLMs oder Modelle mit mehreren Billionen Parametern eingesetzt?
✓ Ist Skalierung über große NVLink-Domänen hinweg erforderlich?
✓ Sind lange Kontextfenster oder sehr hohe Token-Raten relevant?
✓ Reicht die H100 für klassische Fine-Tuning-Workloads aus?
✓ Ist Software-Reife wichtiger als maximale Spitzenleistung?
✓ Spielen Stromverbrauch und Kosten pro Token eine zentrale Rolle?
✓ Wird eine hohe Verfügbarkeit bei Cloud-Providern benötigt?
Fazit: Entscheidungshilfe
Die H100 bleibt weiterhin eine sehr leistungsfähige und wirtschaftlich attraktive GPU für viele AI-Workloads. Besonders beim Fine-Tuning mittelgroßer Modelle, klassischen Enterprise-Anwendungen und etablierten CUDA-Stacks bietet Hopper weiterhin ein starkes Preis-Leistungs-Verhältnis.
Blackwell-B200-Systeme adressieren dagegen eine neue Größenordnung von AI-Infrastruktur. Die Kombination aus FP4-Unterstützung, HBM3e-Speicher, NVLink der fünften Generation und der zweiten Transformer Engine macht die Plattform attraktiv für großskalierte Inferenz und Multi-Billion-Parameter-Modelle.
Wer heute neue High-End-AI-Infrastruktur plant, sollte neben B200 auch B300 bzw. Blackwell Ultra prüfen. NVIDIA führt HGX B300 inzwischen als verfügbar und positioniert die Plattform mit mehr GPU-Speicher, höherer FP4-Leistung und stärkerer Netzwerkbandbreite gegenüber B200. Besonders für sehr große Inferenz-, Reasoning- und MoE-Workloads kann sich daher ein direkter Vergleich von B200-, GB200- und B300-Angeboten lohnen.
Wer vor allem maximale Effizienz pro generiertem Token benötigt oder sehr große AI-Cluster plant, profitiert deutlich von Blackwell. Für kleinere Teams oder klassische Trainingsworkloads kann die H100 dagegen weiterhin die wirtschaftlich sinnvollere Wahl sein. Entscheidend ist daher weniger die absolute Spitzenleistung als vielmehr der konkrete KI-Workload, die Skalierungsanforderungen und das verfügbare Budget.

