High Bandwidth Memory (HBM) ist ein 3D-ge­sta­pel­ter DRAM-Speicher, der direkt auf dem GPU-Package sitzt und über extrem breite Spei­cher­in­ter­faces Da­ten­ra­ten von mehreren Terabyte pro Sekunde er­mög­licht. Durch die Kom­bi­na­ti­on aus hoher Band­brei­te, kurzer Si­gnal­stre­cke und geringer Leis­tungs­auf­nah­me gilt HBM als Schlüs­sel­tech­no­lo­gie für KI-Be­schleu­ni­ger und Large Language Models.

Was ist HBM Memory?

HBM steht für „High Bandwidth Memory“ und be­schreibt eine spezielle Spei­cher­ar­chi­tek­tur für Hoch­leis­tungs­rech­ner, GPUs und KI-Be­schleu­ni­ger. Im Gegensatz zu klas­si­schem Gra­fik­spei­cher wie GDDR sitzt HBM nicht separat auf der Platine, sondern direkt neben der GPU auf demselben Package. Dadurch verkürzen sich die elek­tri­schen Si­gnal­we­ge erheblich. Gleich­zei­tig verwendet HBM extrem breite Spei­cher­in­ter­faces mit Tausenden par­al­le­len Leitungen. Dadurch lassen sich enorme Da­ten­men­gen gleich­zei­tig über­tra­gen.

KI-Modelle benötigen genau diese hohe Spei­cher­band­brei­te, weil Mil­li­ar­den Parameter permanent zwischen GPU und Speicher bewegt werden müssen. HBM kom­bi­niert deshalb hohe Ge­schwin­dig­keit mit ver­gleichs­wei­se guter En­er­gie­ef­fi­zi­enz. Vor allem für das Training und die Inferenz großer LLMs ist HBM-Speicher ein zentraler Per­for­mance-Faktor.

Cloud GPU VM
Maximale KI-Per­for­mance mit Ihrer Cloud GPU VM
  • Exklusive NVIDIA H200 GPUs für höchste Re­chen­leis­tung
  • Ga­ran­tier­te Per­for­mance durch voll­stän­dig de­di­zier­te CPU-Kerne
  • 100 % Hosting in Deutsch­land für maximale Da­ten­si­cher­heit und DSGVO-Kon­for­mi­tät
  • Einfaches, kal­ku­lier­ba­res Preis­mo­dell mit festem Preis pro Stunde

Die Evolution: Von HBM2 zu HBM3e

Die Ent­wick­lung von HBM kon­zen­triert sich vor allem auf eine stetig steigende Spei­cher­band­brei­te. Der ent­schei­den­de Faktor dafür ist die so­ge­nann­te Pin-Ge­schwin­dig­keit, also die Datenrate pro Leitung.

Die wich­tigs­ten Ent­wick­lungs­schrit­te von HBM Memory umfassen:

  • HBM2: Eta­blier­te HBM als Speicher für HPC- und KI-Be­schleu­ni­ger
  • HBM2e: Ver­bes­ser­te Band­brei­te und höhere Spei­cher­ka­pa­zi­tä­ten
  • HBM3: Deutlich höhere Über­tra­gungs­ra­ten für KI-Systeme
  • HBM3e: Op­ti­mier­te Variante mit bis zu 9,6 Gbps Pin-Speed
  • HBM4: Neue Ge­ne­ra­ti­on mit ver­dop­pel­ter Interface-Breite

HBM2e erreichte je nach Aus­füh­rung ty­pi­scher­wei­se Über­tra­gungs­ra­ten von etwa 3,2 bis 3,6 Gbps pro Pin. Mit HBM3 stiegen die Da­ten­ra­ten bereits deutlich auf rund 6,4 Gbps. HBM3e erhöht die Pin-Ge­schwin­dig­keit ty­pi­scher­wei­se auf über 9 Gbps. Je nach Im­ple­men­tie­rung sind sogar noch höhere Da­ten­ra­ten möglich. Dadurch erreicht HBM3e mehr als 1,2 TB/s pro Stack.

Diese Ent­wick­lung ist wichtig für KI-Ar­chi­tek­tu­ren wie die NVIDIA-Hopper-Plattform. GPUs wie die NVIDIA H100 oder NVIDIA H200 nutzen HBM3 be­zie­hungs­wei­se HBM3e, um große Sprach­mo­del­le effizient trai­nie­ren und ausführen zu können. Ohne diese Spei­cher­band­brei­te würden die Re­chen­ein­hei­ten der GPUs häufig auf Daten warten müssen.

Vergleich der HBM-Ge­ne­ra­tio­nen

Standard Busbreite pro Stack Typischer Pin-Speed Maximale Band­brei­te pro Stack
HBM2 1024 Bit bis ca. 2,0 Gbps ca. 256 GB/s
HBM2e 1024 Bit bis 3,6 Gbps ca. 460 GB/s
HBM3 1024 Bit bis 6,4 Gbps ca. 819 GB/s
HBM3e 1024 Bit bis 9,6 Gbps ca. 1,2 TB/s
HBM4 2048 Bit bis 8 Gbps nach JEDEC, höhere Her­stel­ler­im­ple­men­tie­run­gen möglich ca. 2 TB/s nach JEDEC, darüber in er­wei­ter­ten Varianten

Tech­ni­scher Durch­bruch: HBM4 und das 2048-Bit-Interface

HBM4 gilt als einer der größten Tech­no­lo­gie­sprün­ge in der bis­he­ri­gen Ent­wick­lung von High Bandwidth Memory. Die wich­tigs­te Neuerung am HBM-Speicher ist die Ver­dopp­lung der Spei­cher­in­ter­face-Breite von 1024 auf 2048 Bit pro Stack. Dadurch können deutlich mehr Daten parallel über­tra­gen werden.

Während frühere Ge­ne­ra­tio­nen primär über höhere Taktraten schneller wurden, kom­bi­niert HBM4 nun hohe Pin-Ge­schwin­dig­kei­ten mit massiv mehr par­al­le­len Da­ten­lei­tun­gen und sehr hohen Band­brei­ten. Mehrere HBM4-Stacks auf einem einzigen KI-Be­schleu­ni­ger können damit Ge­samt­da­ten­ra­ten im zwei­stel­li­gen Terabyte-Bereich er­mög­li­chen.

Gerade für LLMs und GenAI ist das ent­schei­dend. Große Trans­for­mer-Modelle bewegen enorme Da­ten­men­gen zwischen Re­chen­ein­hei­ten, Ak­ti­vie­run­gen und Mo­dell­ge­wich­ten. Selbst modernste GPUs werden heute häufig durch Spei­cher­band­brei­te limitiert und nicht mehr allein durch reine Re­chen­leis­tung.

Ein weiterer wichtiger Fort­schritt betrifft den so­ge­nann­ten Base-Die. Dieser unterste Steue­rungs-Die eines HBM-Stacks übernimmt die Kom­mu­ni­ka­ti­on mit dem GPU-Interface. Bei HBM4 gewinnt der Base-Die deutlich an Bedeutung: Er enthält kom­ple­xe­re Logik für Steuerung, Si­gnal­füh­rung und En­er­gie­ef­fi­zi­enz und kann je nach Her­stel­ler- und Kun­den­im­ple­men­tie­rung in fort­schritt­li­che­ren Lo­gik­pro­zes­sen gefertigt werden.

Zu­sätz­lich ver­bes­sert der neue HBM-Speicher:

  • die En­er­gie­ef­fi­zi­enz pro über­tra­ge­nem Bit
  • die Si­gnal­sta­bi­li­tät bei hohen Da­ten­ra­ten
  • die Ska­lier­bar­keit für Multi-Die-GPUs
  • die Spei­cher­an­bin­dung großer KI-Cluster
IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

3D-Stacking und TSV: Die Physik hinter der Per­for­mance

Die enorme Leistung von HBM-Speicher basiert auf einer spe­zi­el­len 3D-Ar­chi­tek­tur. Mehrere Speicher-Dies werden vertikal über­ein­an­der­ge­sta­pelt und direkt mit­ein­an­der verbunden. Dieses Verfahren nennt man 3D-Stacking.

Die Kom­mu­ni­ka­ti­on zwischen den einzelnen Spei­cher­la­gen erfolgt über so­ge­nann­te Through-Silicon Vias (TSVs). Dabei handelt es sich um mi­kro­sko­pisch kleine vertikale Leitungen, die direkt durch das Silizium verlaufen. TSVs er­mög­li­chen eine sehr schnelle Da­ten­über­tra­gung zwischen den über­ein­an­der­lie­gen­den Spei­cher­chips.

Zu­sätz­lich werden die Dies mithilfe von Microbump-Bonding mit­ein­an­der verbunden. Diese extrem kleinen Kon­takt­punk­te sorgen für eine dichte elek­tri­sche Ver­bin­dung innerhalb des Stacks. Dadurch entsteht ein kompaktes Hoch­ge­schwin­dig­keits-Spei­cher­sys­tem.

Der ent­schei­den­de Vorteil liegt jedoch in der phy­si­ka­li­schen Nähe zur GPU. HBM Memory befindet sich direkt auf demselben Package wie der KI-Be­schleu­ni­ger. Die Daten müssen daher keine langen Wege über Lei­ter­bah­nen auf dem Mainboard zu­rück­le­gen.

Das reduziert mehrere Probleme gleich­zei­tig:

  • geringere Si­gnal­ver­lus­te
  • nied­ri­ge­re Latenzen
  • weniger elek­tro­ma­gne­ti­sche Störungen
  • ge­rin­ge­rer En­er­gie­ver­brauch pro über­tra­ge­nem Bit

Besonders wichtig ist die En­er­gie­ef­fi­zi­enz. Klas­si­scher Speicher benötigt ver­gleichs­wei­se viel Energie für die Si­gnal­über­tra­gung über längere Distanzen. HBM-Speicher senkt diesen Wert deutlich und erreicht sehr niedrige pJ/Bit-Werte (Picojoule pro Bit). Für Re­chen­zen­tren ist das ent­schei­dend, weil KI-Systeme enorme Strom­men­gen ver­brau­chen.

HBM vs. GDDR6/7: Warum her­kömm­li­cher VRAM nicht ausreicht

Klas­si­scher Gra­fik­spei­cher wie GDDR6 oder GDDR7 ist vor allem für diskrete GPUs und kos­ten­sen­si­ti­ve Hoch­band­brei­ten-An­wen­dun­gen wie Gaming, Work­sta­tions und bestimmte Compute-Szenarien ausgelegt. Dort geht es vor allem um hohe Taktraten und kos­ten­ef­fi­zi­en­te Spei­cher­lö­sun­gen. Für aktuelle KI-Modelle stößt dieses Konzept jedoch zunehmend an Grenzen, denn GDDR arbeitet mit ver­gleichs­wei­se schmalen Spei­cher­in­ter­faces und kom­pen­siert dies durch sehr hohe Fre­quen­zen. HBM-Speicher verfolgt den ge­gen­tei­li­gen Ansatz: extrem breite In­ter­faces bei nied­ri­ge­ren Taktraten. Genau dadurch erreicht HBM eine deutlich höhere Effizienz.

Diese Un­ter­schie­de zeigen sich besonders bei:

  • Spei­cher­band­brei­te
  • En­er­gie­ver­brauch
  • Platz­be­darf
  • Ska­lier­bar­keit
  • ther­mi­scher Belastung

GDDR-Speicher sitzt außerdem verteilt rund um die GPU auf dem PCB. Dadurch benötigen die Da­ten­lei­tun­gen mehr Platz und mehr Energie. Gleich­zei­tig steigen Si­gnal­ver­lus­te und Hit­ze­ent­wick­lung bei sehr hohen Fre­quen­zen. HBM Memory ist we­sent­lich kompakter. Mehrere Spei­cher­sta­pel befinden sich direkt neben der GPU auf einem ge­mein­sa­men In­ter­po­ser. Dadurch lassen sich enorme Band­brei­ten auf kleiner Fläche rea­li­sie­ren.

Für KI-An­wen­dun­gen ist vor allem die Spei­cher­band­brei­te kritisch. Large Language Models mit Hunderten Mil­li­ar­den Pa­ra­me­tern bewegen ständig riesige Da­ten­men­gen. Wenn die GPU schneller rechnen kann, als Daten aus dem Speicher geliefert werden, entsteht ein Fla­schen­hals. Genau dieses Problem wird bei modernen KI-Be­schleu­ni­gern immer re­le­van­ter. Die Re­chen­leis­tung wächst aktuell schneller, als klas­si­sche Spei­cher­tech­no­lo­gien mithalten können. Deshalb braucht es HBM.

Ein weiterer Faktor ist die En­er­gie­ef­fi­zi­enz. In großen KI-Re­chen­zen­tren zählt mitt­ler­wei­le jedes ein­ge­spar­te Watt. HBM-Speicher liefert deutlich mehr Band­brei­te pro Watt als klas­si­scher GDDR-Speicher.

Das bedeutet jedoch nicht, dass GDDR ver­schwin­det. Für Gaming-Gra­fik­kar­ten bleibt GDDR6 be­zie­hungs­wei­se GDDR7 weiterhin wirt­schaft­lich sinnvoll. Für High-End-KI-Be­schleu­ni­ger und große HPC-Systeme ist HBM derzeit die do­mi­nie­ren­de Spei­cher­tech­no­lo­gie.

Compute Engine
Die ideale IaaS für Ihre Workloads
  • Kos­ten­güns­ti­ge vCPUs und leis­tungs­star­ke de­di­zier­te Cores
  • Höchste Fle­xi­bi­li­tät ohne Min­dest­ver­trags­lauf­zeit
  • Inklusive 24/7 Experten-Support

Fazit

HBM hat sich von einer Spe­zi­al­tech­no­lo­gie zu einem zentralen Fundament von KI-In­fra­struk­tur ent­wi­ckelt. Ohne die enorme Spei­cher­band­brei­te von HBM wären aktuelle Large Language Models und viele HPC-An­wen­dun­gen kaum effizient be­treib­bar.

Die Ent­wick­lung zeigt außerdem, dass Spei­cher­tech­no­lo­gien in­zwi­schen genauso wichtig sind wie reine GPU-Re­chen­leis­tung. KI-Be­schleu­ni­ger werden immer stärker durch Spei­cher­band­brei­te, En­er­gie­ver­brauch und Da­ten­be­we­gung limitiert. Her­stel­ler wie SK Hynix, Samsung Elec­tro­nics und Micron Tech­no­lo­gy spielen deshalb eine Schlüs­sel­rol­le im KI-Markt.

HBM4 ist seit Ver­öf­fent­li­chung des JEDEC-Standards JESD270-4 die nächste HBM-Ge­ne­ra­ti­on und befindet sich 2026 im Übergang von Sampling und Pro­duk­ti­ons­vor­be­rei­tung zu ersten Platt­form­ge­ne­ra­tio­nen. Die Zukunft leis­tungs­fä­hi­ger KI hängt damit nicht nur von schnel­le­ren GPUs ab, sondern zunehmend auch von der Evolution von Spei­cher­ar­chi­tek­tu­ren.

Reviewer

Zum Hauptmenü