KI-Beschleuniger: GPU, TPU, NPU und LPU im Architektur-Vergleich
Ein KI-Beschleuniger ist spezialisierte Hardware, die neuronale Netze schneller und energieeffizienter ausführt als klassische CPUs. Während CPUs flexibel unterschiedliche Programme steuern, optimieren GPUs, TPUs, NPUs oder LPUs vor allem den Durchsatz bei Matrix-, Tensor- und Multiply-Accumulate-Operationen, die Deep Learning dominieren.
- Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
- Garantierte Performance durch vollständig dedizierte CPU-Kerne
- 100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
- Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde
Warum Matrixoperationen spezielle Chips brauchen
Moderne neuronale Netze erzeugen einen Großteil ihrer Rechenlast durch lineare Algebra: vor allem durch Matrixmultiplikationen und sogenannte Multiply-Accumulate-Operationen, bei denen Werte multipliziert und anschließend aufsummiert werden. Besonders bei Transformer-Modellen, aber auch bei vielen Convolutional Networks, entstehen so sehr große Mengen gleichartiger Rechenschritte, die sich ideal durch Parallel Processing ausführen lassen.
Klassische CPUs sind dafür nur bedingt optimiert. Sie sind sehr flexibel, können komplexe Programme steuern und reagieren schnell auf einzelne Aufgaben. Bei KI-Modellen zählt jedoch oft etwas anderes: möglichst viele einfache Rechenoperationen gleichzeitig auszuführen und Daten schnell genug zu den Recheneinheiten zu bewegen. Genau hier setzen KI-Beschleuniger an. Ihre Hardware ist weniger auf allgemeine Programmlogik ausgelegt, sondern auf hohen Durchsatz bei Tensor- und Matrixoperationen.
In diesem Umfeld haben sich verschiedene Beschleunigerklassen herausgebildet:
- GPUs sind besonders stark bei massiv-parallelen Berechnungen und werden sowohl für Training als auch Inferenz eingesetzt.
- TPUs wurden speziell für Tensoroperationen entwickelt, die bei modernen KI-Modellen in großer Menge anfallen.
- NPUs finden sich zunehmend in Smartphones, Laptops und anderen Geräten, die KI-Modelle direkt vor Ort ausführen sollen.
- LPUs sind wiederum auf besonders schnelle und vorhersehbare LLM-Inferenz ausgelegt.
Die Unterschiede zwischen diesen Architekturen liegen also nicht nur in der reinen Rechenleistung, sondern vor allem darin, welchen Teil des KI-Lebenszyklus sie besonders gut bedienen: das rechenintensive Training, die effiziente lokale Ausführung oder die latenzkritische Inferenz großer Sprachmodelle.
- 100 % DSGVO-konform und sicher in Deutschland gehostet
- Die leistungsstärksten KI-Modelle auf einer Plattform
- Kein Vendor Lock-in durch Open Source
GPU – Graphics Processing Unit
Die GPU ist der wichtigste Ausgangspunkt der modernen KI-Beschleunigung. Ursprünglich wurde sie für Grafikberechnungen entwickelt: Viele Bildpunkte, Flächen und Shader-Programme müssen gleichzeitig verarbeitet werden. Deswegen verfügen GPUs über sehr viele parallel arbeitende Recheneinheiten, die nach dem SIMT-Prinzip arbeiten. Dabei werden viele Threads gleichzeitig ausgeführt und dieselbe Instruktion auf unterschiedliche Daten angewendet.
Bis Mitte der 2000er-Jahre war die Rechenleistung von GPUs zwar bereits vorhanden, aber nur umständlich für allgemeine Aufgaben nutzbar. Entwicklerinnen und Entwickler mussten Berechnungen oft in grafische Konzepte wie Shader, Texturen oder Pixeloperationen übersetzen.
Mit CUDA öffnete NVIDIA die GPU ab 2006/2007 systematisch für allgemeine Berechnungen jenseits der Grafik. Aus der Grafikhardware wurde damit eine Plattform für General-Purpose Computing on GPUs, kurz GPGPU. Für das Training neuronaler Netze setzte sich die GPU vor allem deshalb durch, weil sie zwei Dinge verbindet: sehr hohe parallele Rechenleistung und ein ausgereiftes Software-Ökosystem aus CUDA, cuDNN, optimierten Bibliotheken und direkter Unterstützung in Frameworks wie PyTorch oder JAX.
Moderne Rechenzentrums-GPUs bestehen aber längst nicht mehr nur aus klassischen CUDA-Kernen. Sie enthalten zusätzlich spezialisierte Tensor Cores, die Matrixoperationen besonders effizient ausführen. Diese Einheiten rechnen mit reduzierten Zahlenformaten wie FP16, FP8 oder auch FP4. Solche Formate sind weniger präzise als klassische 32-Bit-Fließkommazahlen, ermöglichen aber deutlich mehr Durchsatz und eine bessere Energieeffizienz. Das ist besonders bei großen KI-Modellen entscheidend.
Die wichtigsten Merkmale der GPU sind:
- Massiv parallele Architektur mit vielen Recheneinheiten für gleichartige Operationen auf großen Datenmengen.
- Hohe Speicherbandbreite, häufig durch HBM-Speicher in Datacenter-GPUs.
- Tensor Cores für besonders effiziente Matrixmultiplikationen in reduzierten Zahlenformaten.
- Starkes Software-Ökosystem mit CUDA, cuDNN, optimierten Bibliotheken und Framework-Unterstützung.
- Hohe Flexibilität für Training, Fine-Tuning, Simulationen und unterschiedliche Inferenz-Workloads.
Damit bleibt die GPU die flexibelste Klasse unter den KI-Beschleunigern: Sie eignet sich nicht nur für Inferenz, sondern vor allem für das rechenintensive Training großer Modelle, bei dem Durchsatz, Speicherbandbreite und ein starkes Software-Ökosystem zusammenkommen müssen.
- Kostengünstige vCPUs und leistungsstarke dedizierte Cores
- Höchste Flexibilität ohne Mindestvertragslaufzeit
- Inklusive 24/7 Experten-Support
TPU – Tensor Processing Unit
Die TPU ist ein anwendungsspezifischer integrierter Schaltkreis (ASIC), also ein Chip, der für einen bestimmten Einsatzzweck entwickelt wurde. Google hat TPUs von Anfang an für KI-Berechnungen entworfen, insbesondere für die großen Matrixoperationen, die beim Training und bei der Ausführung neuronaler Netze entstehen.
Der Unterschied zur GPU liegt vor allem im Grad der Spezialisierung. Eine GPU bleibt trotz ihrer hohen Parallelität ein relativ flexibler Prozessor, der viele verschiedene Workloads unterstützen muss. Eine TPU ist enger auf Tensor- und Matrixoperationen zugeschnitten. Dadurch ist sie weniger universell einsetzbar, kann bestimmte KI-Berechnungen aber besonders effizient ausführen. Der Gewinn liegt vor allem in höherem Durchsatz und besserer Energieeffizienz pro Rechenoperation.
Das architektonische Herzstück der TPU ist die Matrix Multiply Unit, kurz MXU. Sie ist als systolisches Array aufgebaut: ein Raster aus vielen Multiply-Accumulate-Einheiten, in dem Daten taktsynchron von Zelle zu Zelle weitergereicht werden. Zwischenergebnisse müssen dadurch während der Matrixmultiplikation nicht ständig zurück in den Speicher geschrieben und erneut gelesen werden. Genau das reduziert Datenbewegung, die bei KI-Beschleunigern oft genauso entscheidend ist wie die reine Rechenleistung.
Die TPU ist eng mit dem Google-Ökosystem verbunden. Programme für TPUs werden über XLA in ausführbaren Code für die Hardware übersetzt. Während frühe TPUs stark mit TensorFlow verbunden waren, spielen bei neueren Generationen vor allem JAX und zunehmend auch PyTorch/XLA eine wichtige Rolle. Für externe Kunden sind TPUs in erster Linie als Cloud-Ressource über Google Cloud nutzbar, nicht als frei erhältlicher Beschleuniger wie eine GPU-Karte.
Die wichtigsten Merkmale der TPU sind:
- ASIC-Design für spezialisierte KI-Berechnungen statt universeller Programmierbarkeit.
- Systolische Arrays für effiziente Matrixmultiplikationen mit geringer Datenbewegung.
- Hoher Durchsatz pro Watt bei passenden Tensor- und Matrixoperationen.
- Enge Integration in das Google-Cloud-Ökosystem mit XLA, JAX und PyTorch/XLA.
- Besonders geeignet für skalierte Trainings- und Inferenz-Workloads in der Cloud.
NPU – Neural Processing Unit
Die NPU bringt KI-Beschleunigung aus dem Rechenzentrum direkt auf das Endgerät. Sie steckt heute in Smartphones, Laptops, Wearables und vielen eingebetteten Systemen wie Kameras, Sensoren oder Industriegeräten. Ihr Ziel ist nicht maximale Rechenleistung um jeden Preis, sondern lokale Inferenz bei möglichst geringer Leistungsaufnahme. KI-Funktionen sollen also direkt auf dem Gerät laufen, ohne dass jede Anfrage an ein Rechenzentrum geschickt werden muss.
Die wichtigsten Merkmale der NPU sind:
- Spezialisierter Beschleunigerblock innerhalb eines System-on-Chip neben CPU und GPU.
- Optimiert für lokale Inferenz statt für großskaliges Modelltraining.
- Sehr niedriger Energieverbrauch für mobile Geräte, Akkubetrieb und geringe Wärmeentwicklung.
- Typische Einsatzbereiche sind Bilderkennung, Sprachverarbeitung, Live-Untertitel, Kameraeffekte, lokale Assistenzfunktionen und kleinere generative Modelle.
Anders als bei Datacenter-GPUs steht bei NPUs nicht die Spitzenleistung in TFLOPS im Vordergrund. Der gängige Leistungsindikator ist TOPS, also Tera Operations per Second. Gemeint ist damit, wie viele Billionen einfacher Rechenoperationen pro Sekunde eine NPU ausführen kann. Diese Werte werden meist für ganzzahlige, stark optimierte Berechnungen angegeben, häufig in INT8 und je nach Plattform auch in niedrigeren Präzisionen.
LPU – Language Processing Unit
Die LPU ist die spezialisierteste Beschleunigerklasse. Sie zielt auf ein Problem, das bei großen Sprachmodellen besonders sichtbar wird: die latenzkritische Inferenz. Während Training und der sogenannte Prefill-Schritt eines Modells stark parallelisiert werden können, läuft die eigentliche Textgenerierung autoregressiv ab. Das Modell erzeugt ein Token nach dem anderen, und jedes neue Token hängt vom bisherigen Kontext ab.
Das bedeutet nicht, dass während eines einzelnen Token-Schritts gar nichts parallel berechnet werden kann. Die Matrixoperationen innerhalb des Modells bleiben weiterhin parallelisierbar. Der Ablauf über die Zeit ist aber sequenziell: Erst wenn ein Token erzeugt wurde, kann das nächste berechnet werden. Dadurch verschiebt sich der Engpass. Bei der tokenweisen Generierung zählt nicht nur die maximale Rechenleistung. Entscheidend ist vor allem, wie schnell Gewichte, Zwischenergebnisse und der KV-Cache zwischen Speicher, Recheneinheiten und gegebenenfalls mehreren Chips bewegt werden können. Auf klassischen GPU-Systemen entsteht hier häufig eine „Memory Wall“: Die Recheneinheiten wären schnell genug, warten aber auf Daten.
Der prominenteste Vertreter dieses Ansatzes ist Groq. Ende 2025 lizenzierte NVIDIA Groqs Inferenztechnologie und übernahm zentrale Teammitglieder, während GroqCloud als eigenständiges Angebot weitergeführt wird. Der Deal deutet darauf hin, dass NVIDIA seine Position auch im Markt für besonders schnelle KI-Inferenz weiter ausbaut. Groqs LPU setzt auf eine sehr andere Architektur als klassische GPUs. Statt stark auf externen HBM-Speicher, große Caches und dynamisches Scheduling zur Laufzeit zu vertrauen, nutzt Groq großen chipinternen SRAM und eine deterministische, Compiler-gesteuerte Ausführung. Der Datenfluss wird vorab geplant. Die Hardware soll dadurch sehr vorhersehbar arbeiten und einzelne Anfragen mit besonders niedriger Latenz verarbeiten.
Die wichtigsten Merkmale der LPU sind:
- Optimierung auf LLM-Inferenz statt auf universelles Training.
- Sehr niedrige und gut vorhersagbare Latenz bei der tokenweisen Textgenerierung.
- Großer chipinterner SRAM statt starker Abhängigkeit von externem HBM-Speicher.
- Deterministische, compiler-gesteuerte Ausführung statt dynamischem Scheduling zur Laufzeit.
- Leistungskennzahlen wie Output Tokens pro Sekunde und Time to First Token statt nur TFLOPS oder TOPS.
Der Preis dieser Spezialisierung ist eine geringere Flexibilität. Die LPU ist keine universelle Trainingsplattform wie eine GPU, sondern primär auf Inferenz ausgelegt. Besonders interessant ist sie dort, wo Sprachmodelle sehr schnell reagieren müssen: bei Chatbots, Voice Agents, Echtzeit-Assistenten, Agentensystemen oder Anwendungen, in denen viele kurze Modellaufrufe hintereinander ausgeführt werden. Unterstützt werden vor allem Open-Weight-Modelle bzw. offen verfügbare Modelle. Da sich die Modellverfügbarkeit bei Inferenzplattformen schnell ändert, sollten konkrete Modell-IDs regelmäßig geprüft werden. Aktuell stehen bei Groq unter anderem GPT-OSS-Modelle und ausgewählte Qwen-Modelle im Vordergrund.
Direktvergleich
Die vier Beschleunigerklassen lassen sich nicht allein über ihre Spitzenleistung vergleichen. Entscheidend ist, wofür sie optimiert wurden: maximaler Durchsatz beim Training, effiziente Cloud-Inferenz, lokale KI auf dem Endgerät oder besonders niedrige Latenz bei Sprachmodellen. Die folgende Tabelle ordnet die wichtigsten Unterschiede ein:
| Architektur | Latenz | Durchsatz | Energieprofil | Typischer Einsatz |
|---|---|---|---|---|
| GPU | Mittel bis hoch bei interaktiver LLM-Inferenz; stark abhängig von Modell und Batching | Sehr hoch; NVIDIA B200 ca. 9 PFLOPS dense FP4 pro GPU bzw. ca. 18 PFLOPS sparse FP4 bei strukturierter Sparsity | Hoher absoluter Energiebedarf; B200 bis ca. 1.000 W | Training, Fine-Tuning und flexible Inferenz |
| TPU | Mittel; auf skalierte Cloud-Workloads optimiert | Sehr hoch; Ironwood ca. 4.614 FP8-TFLOPS pro Chip, bis 42,5 FP8-ExaFLOPS pro Pod | Hohe Effizienz pro Rechenleistung durch ASIC-Design | Großskaliges Training und Inferenz in Google Cloud |
| NPU | Niedrig bei lokalen Aufgaben, da kein Cloud-Roundtrip nötig ist | Niedrig bis mittel; aktuelle AI-PC-NPUs meist ca. 40 bis 80 TOPS | Sehr energieeffizient; auf Akku und geringe Wärmeentwicklung optimiert | Lokale Inferenz auf Smartphones, Laptops und Edge-Geräten |
| LPU | Sehr niedrig und gut vorhersagbar bei LLM-Inferenz | Sehr hoch bei tokenweiser Sprachmodell-Inferenz; abhängig von Modell, Decoding und Anbieter | Auf effiziente LLM-Inferenz pro generiertem Token ausgelegt | Latenzkritische Sprachmodell-Anwendungen wie Chatbots, Voice Agents und Agentensysteme |

