Die NVIDIA H100 ist eine GPU, die speziell für KI, Deep Learning und HPC-An­wen­dun­gen ent­wi­ckelt wurde. Die H100-GPU basiert auf der in­no­va­ti­ven Hopper-Ar­chi­tek­tur und arbeitet mit leis­tungs­star­ken Tensor-Kernen der vierten Ge­ne­ra­ti­on, die eine au­ßer­ge­wöhn­li­che Per­for­mance bieten. Dank ihrer enormen Re­chen­ka­pa­zi­tät eignet sich NVIDIAs H100 ideal für das Training komplexer neu­ro­na­ler Netze, für da­ten­in­ten­si­ve Cloud-Workloads und auf­wen­di­ge HPC-Si­mu­la­tio­nen.

Was sind die Leis­tungs­merk­ma­le der NVIDIA H100?

Die NVIDIA H100 bietet ein au­ßer­ge­wöhn­li­ches Leis­tungs­ni­veau, das auf der Hopper-Ar­chi­tek­tur beruht. Diese kom­bi­niert die Tensor-Core-Tech­no­lo­gie mit einer Trans­for­mer-Engine, um mehr Re­chen­leis­tung be­reit­zu­stel­len und das Training von KI-Modellen erheblich zu be­schleu­ni­gen. Die H100-GPU bietet NVIDIA in zwei Varianten an: H100 SXM und H100 NVL.

Cloud GPU VM
Maximale KI-Per­for­mance mit Ihrer Cloud GPU VM
  • Exklusive NVIDIA H200 GPUs für höchste Re­chen­leis­tung
  • Ga­ran­tier­te Per­for­mance durch voll­stän­dig de­di­zier­te CPU-Kerne
  • 100 % Hosting in Deutsch­land für maximale Da­ten­si­cher­heit und DSGVO-Kon­for­mi­tät
  • Einfaches, kal­ku­lier­ba­res Preis­mo­dell mit festem Preis pro Stunde

Die beiden Aus­füh­run­gen un­ter­schei­den sich sowohl in ihrem Form­fak­tor als auch in ihrer Leistung, Spei­cher­band­brei­te und Kon­nek­ti­vi­tät. Die H100 SXM ist vor allem für den Einsatz in hoch­dich­ten Servern und für Hy­pers­ca­le-Um­ge­bun­gen ausgelegt. Die H100 NVL ist dagegen eine PCIe-Karte, die sich leichter in be­stehen­de Server in­te­grie­ren lässt als das SXM-Modul. Sie ist auf die Inferenz großer Sprach­mo­del­le ausgelegt, lässt sich über NVLink-Brücken paarweise koppeln und stellt mehr Speicher pro GPU bereit.

Leis­tungs­merk­mal NVIDIA H100 SXM NVIDIA H100 NVL
FP64 34 TFLOPS 30 TFLOPS
FP64-Tensor-Core 67 TFLOPS 60 TFLOPS
FP32 67 TFLOPS 60 TFLOPS
TF32 Tensor Core 989 TFLOPS 835 TFLOPS
BFLOAT16 Tensor Core 1.979 TFLOPS 1.671 TFLOPS
FP16 Tensor Core 1.979 TFLOPS 1.671 TFLOPS
FP8 Tensor Core 3.958 TFLOPS 3.341 TFLOPS
INT8 Tensor Core 3.958 TOPS 3.341 TOPS
GPU-Speicher 80 GB 94 GB
GPU-Spei­cher­band­brei­te 3,35 TB/s 3,9 TB/s
Decoder 7 NVDEC, 7 JPEG 7 NVDEC, 7 JPEG
Maximal Thermal Design Power (TDP) 700 W (kon­fi­gu­rier­bar) 350-400 W (kon­fi­gu­rier­bar)
Multi-Instanzen-GPU (MIG) Bis zu 7 MIGs mit je 10 GB Bis zu 7 MIGs mit je 12 GB
Form­fak­tor SXM PCIe mit zwei Steck­plät­zen und Luft­küh­lung
Schnitt­stel­le NVIDIA NVLink 900 GB/s, PCIe Gen5: 128 GB/s NVIDIA NVLink: 600 GB/s, PCIe Gen5 128 GB/s
Ser­ver­op­tio­nen NVIDIA HGX H100-Part­ne­rin­nen/Partner und NVIDIA-zer­ti­fi­zier­te Systeme mit 4 oder 8 GPUs, NVIDIA DGX H100 mit 8 GPUs Part­ne­rin­nen/Partner und NVIDIA-zer­ti­fi­zier­te Systeme mit bis zu 8 GPUs
NVIDIA AI En­ter­pri­se Add-on Inklusive
Hinweis

TFLOPS (Tera Floating Point Operations per Second) ist eine Einheit für die Be­schrei­bung der Ver­ar­bei­tungs­ge­schwin­dig­keit von Computern (Gleit­kom­ma). Ein TFLOPS ent­spricht einer Billion Be­rech­nun­gen pro Sekunde. Gleiches gilt für die Einheit TOPS (Tera Operations per Second) – mit dem Un­ter­schied, dass hier Ganzzahl-Ope­ra­tio­nen wie­der­ge­ge­ben werden.

Vor- und Nachteile der NVIDIA H100

Auch wenn die NVIDIA H100 nicht mehr zu den neuesten GPUs auf dem Markt zählt, gilt sie immer noch als leis­tungs­stark. Als wich­tigs­te Vorteile der H100-GPU gelten:

  • Hohe Re­chen­leis­tung: Die H100 bietet eine enorme FP8- und FP16-Tensor-Core-Per­for­mance, wodurch sie sich ideal für komplexe, da­ten­in­ten­si­ve Workloads wie Large Language Models (LLMs) eignet. Das Zu­sam­men­spiel aus Tensor-Kernen der vierten Ge­ne­ra­ti­on und Trans­for­mer Engine kann die Effizienz von KI-Ope­ra­tio­nen noch einmal deutlich steigern.
  • NVLink und NVSwitch: Die NVIDIA H100 un­ter­stützt NVLink der vierten Ge­ne­ra­ti­on, wodurch sich mehrere Server-GPUs mit einer bi­di­rek­tio­na­len Band­brei­te von 900 GB/s (H100 SXM) be­zie­hungs­wei­se 600 GB/s (H100 NVL) mit­ein­an­der verbinden lassen. Dank NVSwitch besteht zudem die Mög­lich­keit, ent­spre­chen­de Cluster flexibel zu skalieren.
  • Multi-Instanz-GPU (MIG): Der Gra­fik­pro­zes­sor kann in bis zu sieben un­ab­hän­gi­ge GPU-Instanzen par­ti­tio­niert werden, was die gleich­zei­ti­ge Aus­füh­rung mehrerer Workloads mit de­zi­dier­ten Res­sour­cen er­mög­licht. Auf diese Weise werden die Fle­xi­bi­li­tät und Effizienz in geteilten Computing-Um­ge­bun­gen ver­bes­sert.
  • Con­fi­den­ti­al Computing: Dank der in­te­grier­ten Si­cher­heits­funk­ti­on werden die Ver­trau­lich­keit und In­te­gri­tät von Daten entlang des kom­plet­ten Workloads geschützt.
  • HBM3-Speicher und PCIe-Gen5-Un­ter­stüt­zung: Mit bis zu 94 GB HBM3-Speicher und einer Band­brei­te von bis zu 3,9 TB/s bietet die NVIDIA H100 eine der leis­tungs­stärks­ten Spei­cher­lö­sun­gen für da­ten­in­ten­si­ve Workloads. In Kom­bi­na­ti­on mit PCIe Gen5 er­mög­licht sie eine sehr schnelle Da­ten­über­tra­gung.

Was sich jedoch als Nachteil erweist: Die hohe Leistung der NVIDIA H100 spiegelt sich auch im Preis wider. Die H100 ist im En­ter­pri­se-Segment an­ge­sie­delt und zählt zu den kos­ten­in­ten­si­ven Be­schleu­ni­gern. Daher fallen H100-Instanzen auch in Cloud-Um­ge­bun­gen ver­gleichs­wei­se teuer aus.

Für welche Ein­satz­ge­bie­te eignet sich NVIDIAs H100-GPU am besten?

Die NVIDIA-GPU H100 wurde speziell für re­chen­in­ten­si­ve Workloads ent­wi­ckelt und eignet sich besonders für an­spruchs­vol­le KI- sowie HPC-An­wen­dun­gen. Die nach­fol­gen­de Übersicht zeigt zentrale Ein­satz­ge­bie­te der H100-GPU auf:

  • Training großer KI-Modelle: Dank ihrer hohen Re­chen­leis­tung be­schleu­nigt die GPU das Mo­dell­trai­ning komplexer neu­ro­na­ler Netze und Large Language Models wie GPT oder LLaMA erheblich.
  • KI-Inferenz in Echtzeit: Die H100 kann bereits trai­nier­te KI-Modelle mit Spit­zen­ge­schwin­dig­kei­ten ausführen, was sich in Bereichen wie Sprach­ver­ar­bei­tung und Bil­der­ken­nung als Vorteil erweist.
  • Cloud- und Re­chen­zen­tren: Die Gra­fik­pro­zes­so­ren bilden die Basis vieler GPU-Server, indem sie die für komplexe Workloads benötigte Re­chen­leis­tung be­reit­stel­len.
  • High Per­for­mance Computing (HPC): Wis­sen­schaft­li­che Be­rech­nun­gen und Si­mu­la­tio­nen pro­fi­tie­ren von der hohen FP64-Per­for­mance der H100-Gra­fik­pro­zes­so­ren.
  • Ge­ne­ra­ti­ve KI: NVIDIAs H100 eignet sich her­vor­ra­gend für die Text-, Bild- und Vi­deo­ge­ne­rie­rung mit KI-Modellen. Die GPU er­mög­licht eine schnelle und ef­fi­zi­en­te Ver­ar­bei­tung großer Da­ten­sät­ze, die für ge­ne­ra­ti­ve KI er­for­der­lich sind.
  • Da­ten­ana­ly­se: Die Hopper-GPUs un­ter­stüt­zen Un­ter­neh­men aus un­ter­schied­li­chen Branchen – etwa Logistik und Finanzen – dabei, aus großen Da­ten­men­gen präzise Prognosen und Vor­her­sa­gen ab­zu­lei­ten.
GPU Server
Leistung neu definiert – mit RTX PRO 6000 GPUs auf de­di­zier­ter Hardware
  • Neue NVIDIA RTX PRO 6000 Blackwell Hoch­leis­tungs-GPUs verfügbar
  • Un­über­trof­fe­ne Per­for­mance für komplexe KI- und Da­ten­auf­ga­ben
  • Gehostet in sicheren und zu­ver­läs­si­gen Re­chen­zen­tren
  • Flexible Preise – basierend auf Ihrem tat­säch­li­chen Verbrauch

Was sind mögliche Al­ter­na­ti­ven zur H100-GPU?

Obwohl die NVIDIA H100 zu den leis­tungs­stär­ke­ren GPUs für KI und HPC gehört, bieten sich je nach An­wen­dungs­fall und Budget unter Umständen al­ter­na­ti­ve Lösungen an – bei­spiels­wei­se aufgrund einer höheren Kos­ten­ef­fi­zi­enz oder mo­der­ne­rer Tech­no­lo­gie. Im Vergleich von Server-GPUs stechen vor allem folgende Al­ter­na­ti­ven heraus:

  • NVIDIA A100: Auch das Vor­gän­ger­mo­dell bietet eine solide Leistung für KI-Training, Inferenz und HPC, ist aber kos­ten­güns­ti­ger.
  • NVIDIA A30: Die A30 kom­bi­niert eine hohe Leistung mit einem günstigen Preis.
  • NVIDIA H200: Die H200 stellt eine deutlich ver­bes­ser­te Version der NVIDIA H100 dar, die bei­spiels­wei­se über eine noch höhere Spei­cher­band­brei­te verfügt.
  • Intel Gaudi 3: Der KI-Be­schleu­ni­ger liefert eine hohe Per­for­mance für KI-Inferenz.
  • NVIDIA B200 (Blackwell): Die B200 mit der modernen Blackwell-Ar­chi­tek­tur ist eine High-End-Al­ter­na­ti­ve für besonders an­spruchs­vol­le KI-Trainings- und Inferenz-Workloads.
  • NVIDIA RTX PRO 6000 Blackwell Server Edition: Diese GPU eignet sich vor allem für En­ter­pri­se-Re­chen­zen­tren, in denen KI-Inferenz mit Visual Computing, Rendering, Si­mu­la­ti­on oder Vi­deo­ver­ar­bei­tung kom­bi­niert wird.
  • AMD Instinct MI300X / MI325X: AMDs Instinct-Be­schleu­ni­ger sind eine leis­tungs­star­ke Al­ter­na­ti­ve und bieten viel HBM-Speicher und hohe Spei­cher­band­brei­te, was sie für große Modelle und spei­cher­in­ten­si­ve Workloads attraktiv macht.

Reviewer

Zum Hauptmenü