Ein KI-Be­schleu­ni­ger ist spe­zia­li­sier­te Hardware, die neuronale Netze schneller und en­er­gie­ef­fi­zi­en­ter ausführt als klas­si­sche CPUs. Während CPUs flexibel un­ter­schied­li­che Programme steuern, op­ti­mie­ren GPUs, TPUs, NPUs oder LPUs vor allem den Durchsatz bei Matrix-, Tensor- und Multiply-Ac­cu­mu­la­te-Ope­ra­tio­nen, die Deep Learning do­mi­nie­ren.

Cloud GPU VM
Maximale KI-Per­for­mance mit Ihrer Cloud GPU VM
  • Exklusive NVIDIA H200 GPUs für höchste Re­chen­leis­tung
  • Ga­ran­tier­te Per­for­mance durch voll­stän­dig de­di­zier­te CPU-Kerne
  • 100 % Hosting in Deutsch­land für maximale Da­ten­si­cher­heit und DSGVO-Kon­for­mi­tät
  • Einfaches, kal­ku­lier­ba­res Preis­mo­dell mit festem Preis pro Stunde

Warum Ma­trix­ope­ra­tio­nen spezielle Chips brauchen

Moderne neuronale Netze erzeugen einen Großteil ihrer Re­chen­last durch lineare Algebra: vor allem durch Ma­trix­mul­ti­pli­ka­tio­nen und so­ge­nann­te Multiply-Ac­cu­mu­la­te-Ope­ra­tio­nen, bei denen Werte mul­ti­pli­ziert und an­schlie­ßend auf­sum­miert werden. Besonders bei Trans­for­mer-Modellen, aber auch bei vielen Con­vo­lu­tio­nal Networks, entstehen so sehr große Mengen gleich­ar­ti­ger Re­chen­schrit­te, die sich ideal durch Parallel Pro­ces­sing ausführen lassen.

Klas­si­sche CPUs sind dafür nur bedingt optimiert. Sie sind sehr flexibel, können komplexe Programme steuern und reagieren schnell auf einzelne Aufgaben. Bei KI-Modellen zählt jedoch oft etwas anderes: möglichst viele einfache Re­chen­ope­ra­tio­nen gleich­zei­tig aus­zu­füh­ren und Daten schnell genug zu den Re­chen­ein­hei­ten zu bewegen. Genau hier setzen KI-Be­schleu­ni­ger an. Ihre Hardware ist weniger auf all­ge­mei­ne Pro­gramm­lo­gik ausgelegt, sondern auf hohen Durchsatz bei Tensor- und Ma­trix­ope­ra­tio­nen.

In diesem Umfeld haben sich ver­schie­de­ne Be­schleu­ni­ger­klas­sen her­aus­ge­bil­det:

  • GPUs sind besonders stark bei massiv-par­al­le­len Be­rech­nun­gen und werden sowohl für Training als auch Inferenz ein­ge­setzt.
  • TPUs wurden speziell für Ten­sor­ope­ra­tio­nen ent­wi­ckelt, die bei modernen KI-Modellen in großer Menge anfallen.
  • NPUs finden sich zunehmend in Smart­phones, Laptops und anderen Geräten, die KI-Modelle direkt vor Ort ausführen sollen.
  • LPUs sind wiederum auf besonders schnelle und vor­her­seh­ba­re LLM-Inferenz ausgelegt.

Die Un­ter­schie­de zwischen diesen Ar­chi­tek­tu­ren liegen also nicht nur in der reinen Re­chen­leis­tung, sondern vor allem darin, welchen Teil des KI-Le­bens­zy­klus sie besonders gut bedienen: das re­chen­in­ten­si­ve Training, die ef­fi­zi­en­te lokale Aus­füh­rung oder die la­tenz­kri­ti­sche Inferenz großer Sprach­mo­del­le.

IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

GPU – Graphics Pro­ces­sing Unit

Die GPU ist der wich­tigs­te Aus­gangs­punkt der modernen KI-Be­schleu­ni­gung. Ur­sprüng­lich wurde sie für Gra­fik­be­rech­nun­gen ent­wi­ckelt: Viele Bild­punk­te, Flächen und Shader-Programme müssen gleich­zei­tig ver­ar­bei­tet werden. Deswegen verfügen GPUs über sehr viele parallel ar­bei­ten­de Re­chen­ein­hei­ten, die nach dem SIMT-Prinzip arbeiten. Dabei werden viele Threads gleich­zei­tig aus­ge­führt und dieselbe In­struk­ti­on auf un­ter­schied­li­che Daten an­ge­wen­det.

Bis Mitte der 2000er-Jahre war die Re­chen­leis­tung von GPUs zwar bereits vorhanden, aber nur um­ständ­lich für all­ge­mei­ne Aufgaben nutzbar. Ent­wick­le­rin­nen und Ent­wick­ler mussten Be­rech­nun­gen oft in grafische Konzepte wie Shader, Texturen oder Pi­xel­ope­ra­tio­nen über­set­zen.

Mit CUDA öffnete NVIDIA die GPU ab 2006/2007 sys­te­ma­tisch für all­ge­mei­ne Be­rech­nun­gen jenseits der Grafik. Aus der Gra­fik­hard­ware wurde damit eine Plattform für General-Purpose Computing on GPUs, kurz GPGPU. Für das Training neu­ro­na­ler Netze setzte sich die GPU vor allem deshalb durch, weil sie zwei Dinge verbindet: sehr hohe parallele Re­chen­leis­tung und ein aus­ge­reif­tes Software-Ökosystem aus CUDA, cuDNN, op­ti­mier­ten Bi­blio­the­ken und direkter Un­ter­stüt­zung in Frame­works wie PyTorch oder JAX.

Moderne Re­chen­zen­trums-GPUs bestehen aber längst nicht mehr nur aus klas­si­schen CUDA-Kernen. Sie enthalten zu­sätz­lich spe­zia­li­sier­te Tensor Cores, die Ma­trix­ope­ra­tio­nen besonders effizient ausführen. Diese Einheiten rechnen mit re­du­zier­ten Zah­len­for­ma­ten wie FP16, FP8 oder auch FP4. Solche Formate sind weniger präzise als klas­si­sche 32-Bit-Fließ­kom­ma­zah­len, er­mög­li­chen aber deutlich mehr Durchsatz und eine bessere En­er­gie­ef­fi­zi­enz. Das ist besonders bei großen KI-Modellen ent­schei­dend.

Die wich­tigs­ten Merkmale der GPU sind:

  • Massiv parallele Ar­chi­tek­tur mit vielen Re­chen­ein­hei­ten für gleich­ar­ti­ge Ope­ra­tio­nen auf großen Da­ten­men­gen.
  • Hohe Spei­cher­band­brei­te, häufig durch HBM-Speicher in Dat­a­cen­ter-GPUs.
  • Tensor Cores für besonders ef­fi­zi­en­te Ma­trix­mul­ti­pli­ka­tio­nen in re­du­zier­ten Zah­len­for­ma­ten.
  • Starkes Software-Ökosystem mit CUDA, cuDNN, op­ti­mier­ten Bi­blio­the­ken und Framework-Un­ter­stüt­zung.
  • Hohe Fle­xi­bi­li­tät für Training, Fine-Tuning, Si­mu­la­tio­nen und un­ter­schied­li­che Inferenz-Workloads.

Damit bleibt die GPU die fle­xi­bels­te Klasse unter den KI-Be­schleu­ni­gern: Sie eignet sich nicht nur für Inferenz, sondern vor allem für das re­chen­in­ten­si­ve Training großer Modelle, bei dem Durchsatz, Spei­cher­band­brei­te und ein starkes Software-Ökosystem zu­sam­men­kom­men müssen.

Compute Engine
Die ideale IaaS für Ihre Workloads
  • Kos­ten­güns­ti­ge vCPUs und leis­tungs­star­ke de­di­zier­te Cores
  • Höchste Fle­xi­bi­li­tät ohne Min­dest­ver­trags­lauf­zeit
  • Inklusive 24/7 Experten-Support

TPU – Tensor Pro­ces­sing Unit

Die TPU ist ein an­wen­dungs­spe­zi­fi­scher in­te­grier­ter Schalt­kreis (ASIC), also ein Chip, der für einen be­stimm­ten Ein­satz­zweck ent­wi­ckelt wurde. Google hat TPUs von Anfang an für KI-Be­rech­nun­gen entworfen, ins­be­son­de­re für die großen Ma­trix­ope­ra­tio­nen, die beim Training und bei der Aus­füh­rung neu­ro­na­ler Netze entstehen.

Der Un­ter­schied zur GPU liegt vor allem im Grad der Spe­zia­li­sie­rung. Eine GPU bleibt trotz ihrer hohen Par­al­le­li­tät ein relativ flexibler Prozessor, der viele ver­schie­de­ne Workloads un­ter­stüt­zen muss. Eine TPU ist enger auf Tensor- und Ma­trix­ope­ra­tio­nen zu­ge­schnit­ten. Dadurch ist sie weniger uni­ver­sell ein­setz­bar, kann bestimmte KI-Be­rech­nun­gen aber besonders effizient ausführen. Der Gewinn liegt vor allem in höherem Durchsatz und besserer En­er­gie­ef­fi­zi­enz pro Re­chen­ope­ra­ti­on.

Das ar­chi­tek­to­ni­sche Herzstück der TPU ist die Matrix Multiply Unit, kurz MXU. Sie ist als sy­sto­li­sches Array aufgebaut: ein Raster aus vielen Multiply-Ac­cu­mu­la­te-Einheiten, in dem Daten takt­syn­chron von Zelle zu Zelle wei­ter­ge­reicht werden. Zwi­schen­er­geb­nis­se müssen dadurch während der Ma­trix­mul­ti­pli­ka­ti­on nicht ständig zurück in den Speicher ge­schrie­ben und erneut gelesen werden. Genau das reduziert Da­ten­be­we­gung, die bei KI-Be­schleu­ni­gern oft genauso ent­schei­dend ist wie die reine Re­chen­leis­tung.

Die TPU ist eng mit dem Google-Ökosystem verbunden. Programme für TPUs werden über XLA in aus­führ­ba­ren Code für die Hardware übersetzt. Während frühe TPUs stark mit Ten­sor­Flow verbunden waren, spielen bei neueren Ge­ne­ra­tio­nen vor allem JAX und zunehmend auch PyTorch/XLA eine wichtige Rolle. Für externe Kunden sind TPUs in erster Linie als Cloud-Ressource über Google Cloud nutzbar, nicht als frei er­hält­li­cher Be­schleu­ni­ger wie eine GPU-Karte.

Die wich­tigs­ten Merkmale der TPU sind:

  • ASIC-Design für spe­zia­li­sier­te KI-Be­rech­nun­gen statt uni­ver­sel­ler Pro­gram­mier­bar­keit.
  • Sy­sto­li­sche Arrays für ef­fi­zi­en­te Ma­trix­mul­ti­pli­ka­tio­nen mit geringer Da­ten­be­we­gung.
  • Hoher Durchsatz pro Watt bei passenden Tensor- und Ma­trix­ope­ra­tio­nen.
  • Enge In­te­gra­ti­on in das Google-Cloud-Ökosystem mit XLA, JAX und PyTorch/XLA.
  • Besonders geeignet für skalierte Trainings- und Inferenz-Workloads in der Cloud.

NPU – Neural Pro­ces­sing Unit

Die NPU bringt KI-Be­schleu­ni­gung aus dem Re­chen­zen­trum direkt auf das Endgerät. Sie steckt heute in Smart­phones, Laptops, Wearables und vielen ein­ge­bet­te­ten Systemen wie Kameras, Sensoren oder In­dus­trie­ge­rä­ten. Ihr Ziel ist nicht maximale Re­chen­leis­tung um jeden Preis, sondern lokale Inferenz bei möglichst geringer Leis­tungs­auf­nah­me. KI-Funk­tio­nen sollen also direkt auf dem Gerät laufen, ohne dass jede Anfrage an ein Re­chen­zen­trum geschickt werden muss.

Die wich­tigs­ten Merkmale der NPU sind:

  • Spe­zia­li­sier­ter Be­schleu­ni­ger­block innerhalb eines System-on-Chip neben CPU und GPU.
  • Optimiert für lokale Inferenz statt für groß­ska­li­ges Mo­dell­trai­ning.
  • Sehr niedriger En­er­gie­ver­brauch für mobile Geräte, Ak­ku­be­trieb und geringe Wär­me­ent­wick­lung.
  • Typische Ein­satz­be­rei­che sind Bil­der­ken­nung, Sprach­ver­ar­bei­tung, Live-Un­ter­ti­tel, Ka­me­ra­ef­fek­te, lokale As­sis­tenz­funk­tio­nen und kleinere ge­ne­ra­ti­ve Modelle.

Anders als bei Dat­a­cen­ter-GPUs steht bei NPUs nicht die Spit­zen­leis­tung in TFLOPS im Vor­der­grund. Der gängige Leis­tungs­in­di­ka­tor ist TOPS, also Tera Ope­ra­ti­ons per Second. Gemeint ist damit, wie viele Billionen einfacher Re­chen­ope­ra­tio­nen pro Sekunde eine NPU ausführen kann. Diese Werte werden meist für ganz­zah­li­ge, stark op­ti­mier­te Be­rech­nun­gen angegeben, häufig in INT8 und je nach Plattform auch in nied­ri­ge­ren Prä­zi­sio­nen.

LPU – Language Pro­ces­sing Unit

Die LPU ist die spe­zia­li­sier­tes­te Be­schleu­ni­ger­klas­se. Sie zielt auf ein Problem, das bei großen Sprach­mo­del­len besonders sichtbar wird: die la­tenz­kri­ti­sche Inferenz. Während Training und der so­ge­nann­te Prefill-Schritt eines Modells stark par­al­le­li­siert werden können, läuft die ei­gent­li­che Text­ge­ne­rie­rung au­to­re­gres­siv ab. Das Modell erzeugt ein Token nach dem anderen, und jedes neue Token hängt vom bis­he­ri­gen Kontext ab.

Das bedeutet nicht, dass während eines einzelnen Token-Schritts gar nichts parallel berechnet werden kann. Die Ma­trix­ope­ra­tio­nen innerhalb des Modells bleiben weiterhin par­al­le­li­sier­bar. Der Ablauf über die Zeit ist aber se­quen­zi­ell: Erst wenn ein Token erzeugt wurde, kann das nächste berechnet werden. Dadurch ver­schiebt sich der Engpass. Bei der to­ken­wei­sen Ge­ne­rie­rung zählt nicht nur die maximale Re­chen­leis­tung. Ent­schei­dend ist vor allem, wie schnell Gewichte, Zwi­schen­er­geb­nis­se und der KV-Cache zwischen Speicher, Re­chen­ein­hei­ten und ge­ge­be­nen­falls mehreren Chips bewegt werden können. Auf klas­si­schen GPU-Systemen entsteht hier häufig eine „Memory Wall“: Die Re­chen­ein­hei­ten wären schnell genug, warten aber auf Daten.

Der pro­mi­nen­tes­te Vertreter dieses Ansatzes ist Groq. Ende 2025 li­zen­zier­te NVIDIA Groqs In­fe­renz­tech­no­lo­gie und übernahm zentrale Team­mit­glie­der, während GroqCloud als ei­gen­stän­di­ges Angebot wei­ter­ge­führt wird. Der Deal deutet darauf hin, dass NVIDIA seine Position auch im Markt für besonders schnelle KI-Inferenz weiter ausbaut. Groqs LPU setzt auf eine sehr andere Ar­chi­tek­tur als klas­si­sche GPUs. Statt stark auf externen HBM-Speicher, große Caches und dy­na­mi­sches Sche­du­ling zur Laufzeit zu vertrauen, nutzt Groq großen chip­in­ter­nen SRAM und eine de­ter­mi­nis­ti­sche, Compiler-ge­steu­er­te Aus­füh­rung. Der Da­ten­fluss wird vorab geplant. Die Hardware soll dadurch sehr vor­her­seh­bar arbeiten und einzelne Anfragen mit besonders niedriger Latenz ver­ar­bei­ten.

Die wich­tigs­ten Merkmale der LPU sind:

  • Op­ti­mie­rung auf LLM-Inferenz statt auf uni­ver­sel­les Training.
  • Sehr niedrige und gut vor­her­sag­ba­re Latenz bei der to­ken­wei­sen Text­ge­ne­rie­rung.
  • Großer chip­in­ter­ner SRAM statt starker Ab­hän­gig­keit von externem HBM-Speicher.
  • De­ter­mi­nis­ti­sche, compiler-ge­steu­er­te Aus­füh­rung statt dy­na­mi­schem Sche­du­ling zur Laufzeit.
  • Leis­tungs­kenn­zah­len wie Output Tokens pro Sekunde und Time to First Token statt nur TFLOPS oder TOPS.

Der Preis dieser Spe­zia­li­sie­rung ist eine geringere Fle­xi­bi­li­tät. Die LPU ist keine uni­ver­sel­le Trai­nings­platt­form wie eine GPU, sondern primär auf Inferenz ausgelegt. Besonders in­ter­es­sant ist sie dort, wo Sprach­mo­del­le sehr schnell reagieren müssen: bei Chatbots, Voice Agents, Echtzeit-As­sis­ten­ten, Agen­ten­sys­te­men oder An­wen­dun­gen, in denen viele kurze Mo­dell­auf­ru­fe hin­ter­ein­an­der aus­ge­führt werden. Un­ter­stützt werden vor allem Open-Weight-Modelle bzw. offen ver­füg­ba­re Modelle. Da sich die Mo­dell­ver­füg­bar­keit bei In­fe­renz­platt­for­men schnell ändert, sollten konkrete Modell-IDs re­gel­mä­ßig geprüft werden. Aktuell stehen bei Groq unter anderem GPT-OSS-Modelle und aus­ge­wähl­te Qwen-Modelle im Vor­der­grund.

Di­rekt­ver­gleich

Die vier Be­schleu­ni­ger­klas­sen lassen sich nicht allein über ihre Spit­zen­leis­tung ver­glei­chen. Ent­schei­dend ist, wofür sie optimiert wurden: maximaler Durchsatz beim Training, ef­fi­zi­en­te Cloud-Inferenz, lokale KI auf dem Endgerät oder besonders niedrige Latenz bei Sprach­mo­del­len. Die folgende Tabelle ordnet die wich­tigs­ten Un­ter­schie­de ein:

Ar­chi­tek­tur Latenz Durchsatz En­er­gie­pro­fil Typischer Einsatz
GPU Mittel bis hoch bei in­ter­ak­ti­ver LLM-Inferenz; stark abhängig von Modell und Batching Sehr hoch; NVIDIA B200 ca. 9 PFLOPS dense FP4 pro GPU bzw. ca. 18 PFLOPS sparse FP4 bei struk­tu­rier­ter Sparsity Hoher absoluter En­er­gie­be­darf; B200 bis ca. 1.000 W Training, Fine-Tuning und flexible Inferenz
TPU Mittel; auf skalierte Cloud-Workloads optimiert Sehr hoch; Ironwood ca. 4.614 FP8-TFLOPS pro Chip, bis 42,5 FP8-ExaFLOPS pro Pod Hohe Effizienz pro Re­chen­leis­tung durch ASIC-Design Groß­ska­li­ges Training und Inferenz in Google Cloud
NPU Niedrig bei lokalen Aufgaben, da kein Cloud-Roundtrip nötig ist Niedrig bis mittel; aktuelle AI-PC-NPUs meist ca. 40 bis 80 TOPS Sehr en­er­gie­ef­fi­zi­ent; auf Akku und geringe Wär­me­ent­wick­lung optimiert Lokale Inferenz auf Smart­phones, Laptops und Edge-Geräten
LPU Sehr niedrig und gut vor­her­sag­bar bei LLM-Inferenz Sehr hoch bei to­ken­wei­ser Sprach­mo­dell-Inferenz; abhängig von Modell, Decoding und Anbieter Auf ef­fi­zi­en­te LLM-Inferenz pro ge­ne­rier­tem Token ausgelegt La­tenz­kri­ti­sche Sprach­mo­dell-An­wen­dun­gen wie Chatbots, Voice Agents und Agen­ten­sys­te­me
Zum Hauptmenü