KI-Beschleuniger: GPU, TPU, NPU und LPU im Architektur-Vergleich

Inhaltsverzeichnis

Ein KI-Beschleuniger ist spezialisierte Hardware, die neuronale Netze schneller und energieeffizienter ausführt als klassische CPUs. Während CPUs flexibel unterschiedliche Programme steuern, optimieren GPUs, TPUs, NPUs oder LPUs vor allem den Durchsatz bei Matrix-, Tensor- und Multiply-Accumulate-Operationen, die Deep Learning dominieren.

Cloud GPU VM

Maximale KI-Performance mit Ihrer Cloud GPU VM

Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
Garantierte Performance durch vollständig dedizierte CPU-Kerne
100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde

Warum Matrixoperationen spezielle Chips brauchen

Moderne neuronale Netze erzeugen einen Großteil ihrer Rechenlast durch lineare Algebra: vor allem durch Matrixmultiplikationen und sogenannte Multiply-Accumulate-Operationen, bei denen Werte multipliziert und anschließend aufsummiert werden. Besonders bei Transformer-Modellen, aber auch bei vielen Convolutional Networks, entstehen so sehr große Mengen gleichartiger Rechenschritte, die sich ideal durch Parallel Processing ausführen lassen.

Klassische CPUs sind dafür nur bedingt optimiert. Sie sind sehr flexibel, können komplexe Programme steuern und reagieren schnell auf einzelne Aufgaben. Bei KI-Modellen zählt jedoch oft etwas anderes: möglichst viele einfache Rechenoperationen gleichzeitig auszuführen und Daten schnell genug zu den Recheneinheiten zu bewegen. Genau hier setzen KI-Beschleuniger an. Ihre Hardware ist weniger auf allgemeine Programmlogik ausgelegt, sondern auf hohen Durchsatz bei Tensor- und Matrixoperationen.

In diesem Umfeld haben sich verschiedene Beschleunigerklassen herausgebildet:

GPUs sind besonders stark bei massiv-parallelen Berechnungen und werden sowohl für Training als auch Inferenz eingesetzt.
TPUs wurden speziell für Tensoroperationen entwickelt, die bei modernen KI-Modellen in großer Menge anfallen.
NPUs finden sich zunehmend in Smartphones, Laptops und anderen Geräten, die KI-Modelle direkt vor Ort ausführen sollen.
LPUs sind wiederum auf besonders schnelle und vorhersehbare LLM-Inferenz ausgelegt.

Die Unterschiede zwischen diesen Architekturen liegen also nicht nur in der reinen Rechenleistung, sondern vor allem darin, welchen Teil des KI-Lebenszyklus sie besonders gut bedienen: das rechenintensive Training, die effiziente lokale Ausführung oder die latenzkritische Inferenz großer Sprachmodelle.

IONOS AI Model Hub

Erste deutsche, multimodale KI-Plattform

100 % DSGVO-konform und sicher in Deutschland gehostet
Die leistungsstärksten KI-Modelle auf einer Plattform
Kein Vendor Lock-in durch Open Source

GPU – Graphics Processing Unit

Die GPU ist der wichtigste Ausgangspunkt der modernen KI-Beschleunigung. Ursprünglich wurde sie für Grafikberechnungen entwickelt: Viele Bildpunkte, Flächen und Shader-Programme müssen gleichzeitig verarbeitet werden. Deswegen verfügen GPUs über sehr viele parallel arbeitende Recheneinheiten, die nach dem SIMT-Prinzip arbeiten. Dabei werden viele Threads gleichzeitig ausgeführt und dieselbe Instruktion auf unterschiedliche Daten angewendet.

Bis Mitte der 2000er-Jahre war die Rechenleistung von GPUs zwar bereits vorhanden, aber nur umständlich für allgemeine Aufgaben nutzbar. Entwicklerinnen und Entwickler mussten Berechnungen oft in grafische Konzepte wie Shader, Texturen oder Pixeloperationen übersetzen.

Mit CUDA öffnete NVIDIA die GPU ab 2006/2007 systematisch für allgemeine Berechnungen jenseits der Grafik. Aus der Grafikhardware wurde damit eine Plattform für General-Purpose Computing on GPUs, kurz GPGPU. Für das Training neuronaler Netze setzte sich die GPU vor allem deshalb durch, weil sie zwei Dinge verbindet: sehr hohe parallele Rechenleistung und ein ausgereiftes Software-Ökosystem aus CUDA, cuDNN, optimierten Bibliotheken und direkter Unterstützung in Frameworks wie PyTorch oder JAX.

Moderne Rechenzentrums-GPUs bestehen aber längst nicht mehr nur aus klassischen CUDA-Kernen. Sie enthalten zusätzlich spezialisierte Tensor Cores, die Matrixoperationen besonders effizient ausführen. Diese Einheiten rechnen mit reduzierten Zahlenformaten wie FP16, FP8 oder auch FP4. Solche Formate sind weniger präzise als klassische 32-Bit-Fließkommazahlen, ermöglichen aber deutlich mehr Durchsatz und eine bessere Energieeffizienz. Das ist besonders bei großen KI-Modellen entscheidend.

Die wichtigsten Merkmale der GPU sind:

Massiv parallele Architektur mit vielen Recheneinheiten für gleichartige Operationen auf großen Datenmengen.
Hohe Speicherbandbreite, häufig durch HBM-Speicher in Datacenter-GPUs.
Tensor Cores für besonders effiziente Matrixmultiplikationen in reduzierten Zahlenformaten.
Starkes Software-Ökosystem mit CUDA, cuDNN, optimierten Bibliotheken und Framework-Unterstützung.
Hohe Flexibilität für Training, Fine-Tuning, Simulationen und unterschiedliche Inferenz-Workloads.

Damit bleibt die GPU die flexibelste Klasse unter den KI-Beschleunigern: Sie eignet sich nicht nur für Inferenz, sondern vor allem für das rechenintensive Training großer Modelle, bei dem Durchsatz, Speicherbandbreite und ein starkes Software-Ökosystem zusammenkommen müssen.

Compute Engine

Die ideale IaaS für Ihre Workloads

Kostengünstige vCPUs und leistungsstarke dedizierte Cores
Höchste Flexibilität ohne Mindestvertragslaufzeit
Inklusive 24/7 Experten-Support

TPU – Tensor Processing Unit

Die TPU ist ein anwendungsspezifischer integrierter Schaltkreis (ASIC), also ein Chip, der für einen bestimmten Einsatzzweck entwickelt wurde. Google hat TPUs von Anfang an für KI-Berechnungen entworfen, insbesondere für die großen Matrixoperationen, die beim Training und bei der Ausführung neuronaler Netze entstehen.

Der Unterschied zur GPU liegt vor allem im Grad der Spezialisierung. Eine GPU bleibt trotz ihrer hohen Parallelität ein relativ flexibler Prozessor, der viele verschiedene Workloads unterstützen muss. Eine TPU ist enger auf Tensor- und Matrixoperationen zugeschnitten. Dadurch ist sie weniger universell einsetzbar, kann bestimmte KI-Berechnungen aber besonders effizient ausführen. Der Gewinn liegt vor allem in höherem Durchsatz und besserer Energieeffizienz pro Rechenoperation.

Das architektonische Herzstück der TPU ist die Matrix Multiply Unit, kurz MXU. Sie ist als systolisches Array aufgebaut: ein Raster aus vielen Multiply-Accumulate-Einheiten, in dem Daten taktsynchron von Zelle zu Zelle weitergereicht werden. Zwischenergebnisse müssen dadurch während der Matrixmultiplikation nicht ständig zurück in den Speicher geschrieben und erneut gelesen werden. Genau das reduziert Datenbewegung, die bei KI-Beschleunigern oft genauso entscheidend ist wie die reine Rechenleistung.

Die TPU ist eng mit dem Google-Ökosystem verbunden. Programme für TPUs werden über XLA in ausführbaren Code für die Hardware übersetzt. Während frühe TPUs stark mit TensorFlow verbunden waren, spielen bei neueren Generationen vor allem JAX und zunehmend auch PyTorch/XLA eine wichtige Rolle. Für externe Kunden sind TPUs in erster Linie als Cloud-Ressource über Google Cloud nutzbar, nicht als frei erhältlicher Beschleuniger wie eine GPU-Karte.

Die wichtigsten Merkmale der TPU sind:

ASIC-Design für spezialisierte KI-Berechnungen statt universeller Programmierbarkeit.
Systolische Arrays für effiziente Matrixmultiplikationen mit geringer Datenbewegung.
Hoher Durchsatz pro Watt bei passenden Tensor- und Matrixoperationen.
Enge Integration in das Google-Cloud-Ökosystem mit XLA, JAX und PyTorch/XLA.
Besonders geeignet für skalierte Trainings- und Inferenz-Workloads in der Cloud.

NPU – Neural Processing Unit

Die NPU bringt KI-Beschleunigung aus dem Rechenzentrum direkt auf das Endgerät. Sie steckt heute in Smartphones, Laptops, Wearables und vielen eingebetteten Systemen wie Kameras, Sensoren oder Industriegeräten. Ihr Ziel ist nicht maximale Rechenleistung um jeden Preis, sondern lokale Inferenz bei möglichst geringer Leistungsaufnahme. KI-Funktionen sollen also direkt auf dem Gerät laufen, ohne dass jede Anfrage an ein Rechenzentrum geschickt werden muss.

Die wichtigsten Merkmale der NPU sind:

Spezialisierter Beschleunigerblock innerhalb eines System-on-Chip neben CPU und GPU.
Optimiert für lokale Inferenz statt für großskaliges Modelltraining.
Sehr niedriger Energieverbrauch für mobile Geräte, Akkubetrieb und geringe Wärmeentwicklung.
Typische Einsatzbereiche sind Bilderkennung, Sprachverarbeitung, Live-Untertitel, Kameraeffekte, lokale Assistenzfunktionen und kleinere generative Modelle.

Anders als bei Datacenter-GPUs steht bei NPUs nicht die Spitzenleistung in TFLOPS im Vordergrund. Der gängige Leistungsindikator ist TOPS, also Tera Operations per Second. Gemeint ist damit, wie viele Billionen einfacher Rechenoperationen pro Sekunde eine NPU ausführen kann. Diese Werte werden meist für ganzzahlige, stark optimierte Berechnungen angegeben, häufig in INT8 und je nach Plattform auch in niedrigeren Präzisionen.

LPU – Language Processing Unit

Die LPU ist die spezialisierteste Beschleunigerklasse. Sie zielt auf ein Problem, das bei großen Sprachmodellen besonders sichtbar wird: die latenzkritische Inferenz. Während Training und der sogenannte Prefill-Schritt eines Modells stark parallelisiert werden können, läuft die eigentliche Textgenerierung autoregressiv ab. Das Modell erzeugt ein Token nach dem anderen, und jedes neue Token hängt vom bisherigen Kontext ab.

Das bedeutet nicht, dass während eines einzelnen Token-Schritts gar nichts parallel berechnet werden kann. Die Matrixoperationen innerhalb des Modells bleiben weiterhin parallelisierbar. Der Ablauf über die Zeit ist aber sequenziell: Erst wenn ein Token erzeugt wurde, kann das nächste berechnet werden. Dadurch verschiebt sich der Engpass. Bei der tokenweisen Generierung zählt nicht nur die maximale Rechenleistung. Entscheidend ist vor allem, wie schnell Gewichte, Zwischenergebnisse und der KV-Cache zwischen Speicher, Recheneinheiten und gegebenenfalls mehreren Chips bewegt werden können. Auf klassischen GPU-Systemen entsteht hier häufig eine „Memory Wall“: Die Recheneinheiten wären schnell genug, warten aber auf Daten.

Der prominenteste Vertreter dieses Ansatzes ist Groq. Ende 2025 lizenzierte NVIDIA Groqs Inferenztechnologie und übernahm zentrale Teammitglieder, während GroqCloud als eigenständiges Angebot weitergeführt wird. Der Deal deutet darauf hin, dass NVIDIA seine Position auch im Markt für besonders schnelle KI-Inferenz weiter ausbaut. Groqs LPU setzt auf eine sehr andere Architektur als klassische GPUs. Statt stark auf externen HBM-Speicher, große Caches und dynamisches Scheduling zur Laufzeit zu vertrauen, nutzt Groq großen chipinternen SRAM und eine deterministische, Compiler-gesteuerte Ausführung. Der Datenfluss wird vorab geplant. Die Hardware soll dadurch sehr vorhersehbar arbeiten und einzelne Anfragen mit besonders niedriger Latenz verarbeiten.

Die wichtigsten Merkmale der LPU sind:

Optimierung auf LLM-Inferenz statt auf universelles Training.
Sehr niedrige und gut vorhersagbare Latenz bei der tokenweisen Textgenerierung.
Großer chipinterner SRAM statt starker Abhängigkeit von externem HBM-Speicher.
Deterministische, compiler-gesteuerte Ausführung statt dynamischem Scheduling zur Laufzeit.
Leistungskennzahlen wie Output Tokens pro Sekunde und Time to First Token statt nur TFLOPS oder TOPS.

Der Preis dieser Spezialisierung ist eine geringere Flexibilität. Die LPU ist keine universelle Trainingsplattform wie eine GPU, sondern primär auf Inferenz ausgelegt. Besonders interessant ist sie dort, wo Sprachmodelle sehr schnell reagieren müssen: bei Chatbots, Voice Agents, Echtzeit-Assistenten, Agentensystemen oder Anwendungen, in denen viele kurze Modellaufrufe hintereinander ausgeführt werden. Unterstützt werden vor allem Open-Weight-Modelle bzw. offen verfügbare Modelle. Da sich die Modellverfügbarkeit bei Inferenzplattformen schnell ändert, sollten konkrete Modell-IDs regelmäßig geprüft werden. Aktuell stehen bei Groq unter anderem GPT-OSS-Modelle und ausgewählte Qwen-Modelle im Vordergrund.

Direktvergleich

Die vier Beschleunigerklassen lassen sich nicht allein über ihre Spitzenleistung vergleichen. Entscheidend ist, wofür sie optimiert wurden: maximaler Durchsatz beim Training, effiziente Cloud-Inferenz, lokale KI auf dem Endgerät oder besonders niedrige Latenz bei Sprachmodellen. Die folgende Tabelle ordnet die wichtigsten Unterschiede ein:

Architektur	Latenz	Durchsatz	Energieprofil	Typischer Einsatz
GPU	Mittel bis hoch bei interaktiver LLM-Inferenz; stark abhängig von Modell und Batching	Sehr hoch; NVIDIA B200 ca. 9 PFLOPS dense FP4 pro GPU bzw. ca. 18 PFLOPS sparse FP4 bei strukturierter Sparsity	Hoher absoluter Energiebedarf; B200 bis ca. 1.000 W	Training, Fine-Tuning und flexible Inferenz
TPU	Mittel; auf skalierte Cloud-Workloads optimiert	Sehr hoch; Ironwood ca. 4.614 FP8-TFLOPS pro Chip, bis 42,5 FP8-ExaFLOPS pro Pod	Hohe Effizienz pro Rechenleistung durch ASIC-Design	Großskaliges Training und Inferenz in Google Cloud
NPU	Niedrig bei lokalen Aufgaben, da kein Cloud-Roundtrip nötig ist	Niedrig bis mittel; aktuelle AI-PC-NPUs meist ca. 40 bis 80 TOPS	Sehr energieeffizient; auf Akku und geringe Wärmeentwicklung optimiert	Lokale Inferenz auf Smartphones, Laptops und Edge-Geräten
LPU	Sehr niedrig und gut vorhersagbar bei LLM-Inferenz	Sehr hoch bei tokenweiser Sprachmodell-Inferenz; abhängig von Modell, Decoding und Anbieter	Auf effiziente LLM-Inferenz pro generiertem Token ausgelegt	Latenzkritische Sprachmodell-Anwendungen wie Chatbots, Voice Agents und Agentensysteme

Passende Produkte

Cloud GPU VM

10 Jahre Digital Guide: Eine Erfolgsgeschichte

KI-Telefonassistent: Die Live-Demo

KI-Wissen für Ihren Erfolg

Unser Newsletter bringt Ihnen die wichtigsten Insights rund um KI – verständlich, praxisnah und auf den Punkt.

NVIDIA RAPIDS: Data Science auf GPUs beschleunigen

NVIDIA RAPIDS gehört zu den wichtigsten Open-Source-Projekten für GPU-beschleunigte Datenverarbeitung. Die Plattform ermöglicht es, bekannte Python-Bibliotheken wie pandas, scikit-learn und NetworkX durch GPU-optimierte Varianten zu ersetzen. Dadurch lassen sich große Datensätze…

GPU Hosting

sakkmesterkeshutterstock

NVIDIA MIG erklärt: Eine GPU in mehrere isolierte Instanzen aufteilen

Nicht jeder KI-Workload benötigt die Leistung einer kompletten H100 oder B200. Mit NVIDIA MIG lassen sich Rechenzentrums-GPUs in mehrere unabhängige GPU-Instanzen unterteilen, die jeweils über eigene Rechen- und Speicherressourcen verfügen. Das erhöht die Auslastung teurer…

Lexikon
GPU Hosting

watcharashutterstock

NVIDIA H200: Leistungsstarke Data-Center-GPU für KI und HPC

Die NVIDIA H200 ist eine spezialisierte Data-Center-GPU für KI-Anwendungen und High-Performance-Computing. Sie basiert auf der Hopper-Architektur und kombiniert hohe Tensor-Core-Rechenleistung mit sehr großem und schnellem HBM3e-Speicher. Dadurch eignet sie sich besonders für…

GPU Hosting
Lexikon

Ahmet Misirligulshutterstock

NVIDIA Blackwell B200 vs. Hopper H100: Welche Cloud-GPU für welche AI-Last?

Mit Blackwell führt NVIDIA eine neue GPU-Generation ein. Gegenüber der H100 verbessert die B200 unter anderem Speicherbandbreite, Interconnect-Leistung und Effizienz pro erzeugtem Token. Unser Artikel analysiert die Unterschiede zwischen Blackwell vs. Hopper und liefert eine…

GPU Hosting

pixelparticleshutterstock

Was ist eine Cloud GPU?

Cloud GPUs kombinieren Rechenpower mit Flexibilität: Sie liefern GPU-Leistung aus der Cloud für anspruchsvolle Aufgaben wie Machine Learning, Simulationen oder Visualisierung. In diesem Artikel erklären wir die Grundlagen, Leistungsmerkmale, Einsatzgebiete sowie die Vor- und…

GPU Hosting
Lexikon

sakkmesterkeshutterstock

Cloud GPU auswählen: So finden Sie die passende GPU für Ihr Projekt

Welche Cloud GPU passt zu Ihrem Projekt? Dieser Ratgeber erklärt, wofür Cloud GPUs eingesetzt werden, welche Use Cases es gibt und welche Auswahlkriterien in der Praxis entscheidend sind. Sie erfahren, warum VRAM oft limitiert, wie Rechenleistung richtig bewertet wird und wie Sie…

GPU Hosting
Ratgeber

KI-Be­schleu­ni­ger: GPU, TPU, NPU und LPU im Ar­chi­tek­tur-Vergleich

Warum Ma­trix­ope­ra­tio­nen spezielle Chips brauchen

GPU – Graphics Pro­ces­sing Unit

TPU – Tensor Pro­ces­sing Unit

NPU – Neural Pro­ces­sing Unit

LPU – Language Pro­ces­sing Unit

Di­rekt­ver­gleich

KI-Beschleuniger: GPU, TPU, NPU und LPU im Architektur-Vergleich

Warum Matrixoperationen spezielle Chips brauchen

GPU – Graphics Processing Unit

TPU – Tensor Processing Unit

NPU – Neural Processing Unit

LPU – Language Processing Unit

Direktvergleich