CUDA, Tensor & RT Cores: Die Architektur moderner GPUs erklärt
Innerhalb einer NVIDIA-GPU übernehmen drei spezialisierte Recheneinheiten bzw. Hardware-Blöcke unterschiedliche Aufgaben: CUDA Cores dienen als universelle Recheneinheiten für klassische Grafik- und Parallelberechnungen, Tensor Cores sind spezialisierte KI-Beschleuniger für Matrixoperationen beim Deep Learning und RT Cores bilden dedizierte Hardware zur Berechnung von Lichtstrahlen (Raytracing), zum Beispiel für Schatten und Reflexionen.
CUDA, Tensor & RT Cores im Vergleich
Viele moderne NVIDIA-GPUs bestehen nicht mehr nur aus einer einzigen Art von Recheneinheit. Stattdessen kombinieren sie auf einem Chip mehrere spezialisierte Hardware-Blöcke, die jeweils für unterschiedliche Aufgaben optimiert sind.
Das ist einer der Gründe, warum dieselbe GPU ganz verschiedene Prozesse beschleunigen kann: Sie rendert Spiele, berechnet KI-Modelle, unterstützt Videobearbeitung und ermöglicht realistischere Licht- und Schatteneffekte per Raytracing. Dabei übernimmt nicht jede Einheit alles. Vielmehr gibt es eine klare Arbeitsteilung.
Im Zentrum stehen die Technologien CUDA Cores, Tensor Cores und RT Cores:
- CUDA Cores sind die flexiblen Allrounder für viele klassische Rechen- und Grafikaufgaben.
- Tensor Cores sind Spezialisten für Matrixberechnungen, wie sie vor allem bei KI und Machine Learning vorkommen. Sie stellen die spezialisierte Matrix-Rechenleistung bereit, die moderne KI-Workloads für Training und Inferenz benötigen.
- RT Cores wiederum beschleunigen bestimmte Raytracing-Berechnungen, etwa die Frage, welche Objekte ein Lichtstrahl in einer 3D-Szene trifft.
- Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
- Garantierte Performance durch vollständig dedizierte CPU-Kerne
- 100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
- Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde
GPU-Technologien bei unterschiedlichen Herstellern
CUDA Cores, Tensor Cores und RT Cores sind Bezeichnungen von NVIDIA. Andere GPU-Hersteller wie AMD oder Intel verfolgen ähnliche Grundideen, verwenden aber andere Bezeichnungen und setzen sie technisch anders um. AMD spricht zum Beispiel von Compute Units, AI Accelerators und Ray Accelerators (auch Raytracing Accelerators). Intel nutzt Begriffe wie Xe-Cores, XMX Engines oder Ray Tracing Units. Die genaue Architektur unterscheidet sich also je nach Hersteller. Die aufgeführte, grundlegende Arbeitsteilung moderner GPUs ist aber vergleichbar.
CUDA Cores: die vielseitigen Recheneinheiten
CUDA Cores sind die klassischen Recheneinheiten in NVIDIA-GPUs. Sie sitzen in größeren Blöcken, den sogenannten Streaming Multiprocessors, und übernehmen viele der allgemeinen Berechnungen.
Man kann sie sich als die Allrounder der GPU vorstellen: flexible Rechenwerke, die nahezu jede mathematische Standardoperation ausführen können. Sie berechnen zum Beispiel Shader in Spielen, verarbeiten Bilddaten oder führen physikalische Simulationen aus. Ihr Spezialgebiet ist allerdings die massiv parallele Verarbeitung von Gleitkommazahlen, insbesondere im Single-Precision-Format (FP32), weshalb sie oft schlicht als FP32 Engines bezeichnet werden. Seit der RTX-Blackwell-Generation ist diese Bezeichnung allerdings etwas zu kurz gegriffen: Die Shader-Kerne sind dort vollständig FP32/INT32-fähig. Sie können pro Takt jedoch entweder Gleitkomma- oder Integer-Operationen ausführen.
Das Fundament der CUDA-Architektur bildet SIMT (Single Instruction, Multiple Threads). Das Ausführungsmodell ähnelt SIMD (Single Instruction, Multiple Data), ist aber auf viele parallel laufende Threads ausgelegt. Dabei werden jeweils 32 Threads zu einer Gruppe, dem sogenannten Warp, zusammengefasst.
Alle Threads eines Warps führen im Regelfall denselben Befehl aus, operieren dabei aber auf ihren eigenen, voneinander unabhängigen Daten und Registern. Soll eine GPU etwa eine große Anzahl an Pixeln einfärben, muss sie den Befehl „multipliziere den Farbwert mit 0,5“ nicht für jedes Pixel vollständig nacheinander ausführen. Stattdessen verteilt sie die Arbeit auf viele parallele Threads und Warps, die gleichartige Operationen gleichzeitig abarbeiten. Große, gleichförmige Datenmengen lassen sich so deutlich schneller verarbeiten.
Typische Aufgaben für CUDA Cores
CUDA Cores sind überall dort stark, wo viele ähnliche Berechnungen parallel ausgeführt werden können. Dazu gehören zum Beispiel:
- klassisches Rendering und Shading in Spielen
- Vertex-, Pixel- und Compute-Shader
- Bildbearbeitung, Filter und Postprocessing-Effekte
- Physiksimulationen, etwa Partikel, Flüssigkeiten oder Kollisionen
- wissenschaftliche Berechnungen und numerische Simulationen
- allgemeine GPGPU-Aufgaben, also Rechenaufgaben außerhalb klassischer Grafik
- Vorverarbeitung von Daten für KI-Workflows
- Teile von Medien-Pipelines, zum Beispiel Bild- oder Videovorverarbeitung
Tensor Cores: Spezialisten für KI und Matrixberechnungen
Mit dem Aufstieg von Deep Learning stiegen auch die Anforderungen an GPUs. Der Grund: Neuronale Netze bestehen zu einem großen Teil aus sehr vielen Matrixberechnungen. Besonders beim Training und bei der Inferenz großer KI-Modelle müssen riesige Zahlenblöcke immer wieder miteinander multipliziert und addiert werden.
CUDA Cores können solche Berechnungen grundsätzlich ebenfalls ausführen. Sie sind flexibel, aber nicht speziell dafür gebaut, große Matrixoperationen mit maximalem Durchsatz abzuarbeiten. Genau hier kommen Tensor Cores ins Spiel. Sie sind spezialisierte Recheneinheiten in modernen NVIDIA-GPUs, die Matrix- und Tensoroperationen deutlich schneller verarbeiten können als allgemeine Recheneinheiten.
Tensor Cores beschleunigen die sogenannte GEMM (General Matrix Multiply), also die allgemeine Matrix-Matrix-Multiplikation. Sie können ganze kleine Matrixblöcke auf einmal verarbeiten, indem sie viele Multiplikationen und Additionen in einer spezialisierten Hardware-Operation bündeln.
Ein wichtiger Grund für die hohe Geschwindigkeit von Tensor Cores ist Mixed Precision, also das Rechnen mit gemischter Genauigkeit. Statt jede Berechnung durchgehend mit hoher FP32-Genauigkeit auszuführen, nutzen Tensor Cores oft kleinere Zahlenformate. Dazu gehören je nach GPU-Generation zum Beispiel FP16, BF16, TF32, INT8, FP8 oder FP4.
Der Vorteil: Kleinere Zahlenformate benötigen weniger Speicherplatz, lassen sich schneller übertragen und können mit höherem Durchsatz verarbeitet werden. Gleichzeitig werden wichtige Zwischenergebnisse oft in höherer Genauigkeit gesammelt, damit sich Rundungsfehler nicht zu stark aufaddieren. Für viele KI-Anwendungen ist das ein guter Kompromiss. Die Berechnungen werden deutlich schneller und effizienter, während die Ergebnisqualität meist weitgehend erhalten bleibt.
Typische Aufgaben für Tensor Cores
Tensor Cores kommen vor allem dort zum Einsatz, wo sehr viele Matrix- oder Tensorberechnungen anfallen. Dazu gehören zum Beispiel:
- Training tiefer neuronaler Netze
- Inferenz großer Sprachmodelle und generativer KI
- Transformer-Modelle, Diffusionsmodelle und Empfehlungssysteme
- KI-gestütztes Bild-Upscaling und Frame-Generierung, zum Beispiel DLSS
- Sprach-, Bild- und Objekterkennung
- niedrigpräzise bzw. quantisierte Inferenz mit Formaten wie INT8, FP8 oder FP4
- wissenschaftliche Anwendungen mit viel linearer Algebra
RT Cores – die Raytracing-Beschleuniger
Die dritte Spezialeinheit, die RT Cores, adressiert ein notorisch rechenintensives Grafikproblem: das hardwarebeschleunigte Raytracing. Beim Raytracing werden Lichtstrahlen durch eine Szene verfolgt, um Schatten, Reflexionen, Brechungen und globale Beleuchtung physikalisch realistischer zu simulieren. Der Rechenaufwand dafür ist enorm, da für jeden einzelnen Strahl bestimmt werden muss, welches geometrische Objekt er als Erstes trifft.
Deshalb verwenden Raytracing-Systeme sogenannte Bounding Volume Hierarchies, kurz BVH. Das ist eine Art Suchstruktur für die 3D-Szene. Man kann sie sich wie verschachtelte Hüllboxen vorstellen. Große Bereiche der Szene werden zunächst grob umschlossen. Nur wenn ein Strahl eine solche Box trifft, wird genauer geprüft, welche kleineren Bereiche oder Dreiecke darin relevant sind. So muss die GPU nicht jedes Dreieck einzeln testen. Sie kann viele Bereiche direkt ausschließen und sich Schritt für Schritt zu den wenigen Objekten vorarbeiten, die der Strahl tatsächlich treffen könnte.
Genau hier kommen die RT Cores zum Einsatz. Sie beschleunigen vor allem zwei besonders wichtige Aufgaben:
- BVH-Traversal: Durchlaufen der Hüllbox-Struktur
- Ray-Triangle-Intersection-Tests: Prüfung, ob und wo ein Strahl ein bestimmtes Polygon trifft
Der entscheidende Vorteil ist, dass diese Tests fest verdrahtet in den RT Cores ablaufen, statt die CUDA Cores zu belasten. Damit werden die universellen Shader-Einheiten entlastet und können sich parallel um Schattierung, Materialberechnung und andere Aufgaben kümmern. Ohne diese Auslagerung wäre Raytracing in Echtzeit auf dem heutigen Niveau schlicht nicht möglich.
Neuere RT-Core-Generationen gehen über diese Grundfunktionen hinaus. In der RTX-Blackwell-Generation unterstützen die Raytracing-Kerne unter anderem Mega Geometry für sehr detailreiche Szenen sowie Linear Swept Spheres, um feine Strukturen wie Haare, Fell oder Gras effizienter zu berechnen.
Typische Aufgaben für RT Cores
RT Cores kommen immer dann zum Einsatz, wenn viele Strahlen durch eine 3D-Szene verfolgt und mit der Geometrie der Szene abgeglichen werden müssen. Typische Einsatzbereiche sind zum Beispiel:
- Echtzeit-Raytracing in Spielen, etwa für realistischere Reflexionen, Schatten und Umgebungsverdeckung
- Path Tracing und globale Beleuchtung für besonders realistische 3D-Szenen
- Rendering und Visualisierung in Architektur, Produktdesign, Film und Animation
- physikalisch basiertes Rendering, bei dem Licht, Materialien und Oberflächen möglichst realitätsnah simuliert werden
- schnelle Abfragen in 3D-Szenen, zum Beispiel über BVH-Strukturen
- wissenschaftliche Visualisierung, wenn große Datenmengen mit Strahlverfolgung dargestellt werden
Das Zusammenspiel: wie CUDA, Tensor und RT Cores zusammenarbeiten
Die Stärke moderner NVIDIA-GPUs liegt nicht nur in einzelnen Recheneinheiten, sondern in ihrer Arbeitsteilung. CUDA Cores, Tensor Cores und RT Cores übernehmen unterschiedliche Aufgaben und ergänzen sich dabei. Besonders gut lässt sich das an einer modernen Spielszene mit Raytracing und KI-Upscaling erklären:
- Zuerst übernehmen die CUDA Cores zusammen mit weiteren spezialisierten Einheiten viele klassische Grafikaufgaben. Dazu gehören zum Beispiel Geometrie, Rasterisierung, Shader, Texturen und Materialeffekte. Sie sorgen also für einen großen Teil der eigentlichen Bildberechnung.
- Wenn Raytracing aktiviert ist, kommen zusätzlich die RT Cores ins Spiel. Sie beschleunigen die Suche nach Schnittpunkten zwischen Lichtstrahlen und Objekten in der Szene. Dafür durchlaufen sie unter anderem die BVH-Struktur und prüfen, welche Dreiecke von einem Strahl getroffen werden. Die daraus entstehenden Informationen werden anschließend wieder für die weitere Bildberechnung genutzt, zum Beispiel für Schatten, Reflexionen oder Beleuchtung.
- Die Tensor Cores veredeln das Resultat schließlich per KI. Bei DLSS (Deep Learning Super Sampling) wird z. B. ein in niedriger Auflösung gerendertes Bild durch ein neuronales Netz hochskaliert und geschärft, sodass die Szene in voller Auflösung erscheint, ohne dass tatsächlich jeder Pixel klassisch berechnet werden musste. Neuere Verfahren erzeugen zusätzlich Zwischenbilder (Frame Generation), wobei neben Tensor Cores auch weitere GPU-Einheiten wie der Optical Flow Accelerator eine Rolle spielen.
Auf diese Weise spart das Zusammenspiel Rechenzeit an genau den Stellen, an denen die jeweilige Einheit am effizientesten ist.
CUDA, Tensor & RT Cores: Direktvergleich
Die drei Kerntypen moderner NVIDIA-GPUs unterscheiden sich vor allem durch ihr jeweiliges Aufgabengebiet, die Art der mathematischen Operationen, die sie ausführen, und die Anwendungsbereiche, für die sie optimiert sind:
| Kerntyp | Primäre Aufgabe | Mathematische Operationen | Typische Use Cases |
|---|---|---|---|
| CUDA Cores (Shader-/SIMT-Einheiten, oft als FP32 Engines bezeichnet) | Allrounder für klassische Grafik- und allgemeine GPGPU-Aufgaben | Skalare/Vektor-Operationen im SIMT-Modell, v. a. Single-Precision-Gleitkomma (FP32) | Gaming, Simulation, allgemeine parallele Datenverarbeitung |
| Tensor Cores | Massive Beschleunigung von Matrix-/Tensoroperationen | Matrix-Matrix-Multiplikation (GEMM) mit Mixed Precision (FP16, BF16, TF32, INT8, FP8, FP4) | KI / Machine Learning, generative KI, wissenschaftliche lineare Algebra |
| RT Cores | Hardwarebeschleunigtes Raytracing | Geometrische Schnittpunkt-Tests: BVH-Traversal und Ray-Triangle-Intersection; je nach Generation zusätzliche Funktionen wie Opacity Micromaps, Displaced Micro-Meshes oder Mega Geometry | Gaming (Echtzeit-Raytracing), Rendering & Visualisierung in Film, Architektur und Produktdesign |
- Kostengünstige vCPUs und leistungsstarke dedizierte Cores
- Höchste Flexibilität ohne Mindestvertragslaufzeit
- Inklusive 24/7 Experten-Support

