CUDA, Tensor & RT Cores: Die Architektur moderner GPUs erklärt

Inhaltsverzeichnis

Innerhalb einer NVIDIA-GPU übernehmen drei spezialisierte Recheneinheiten bzw. Hardware-Blöcke unterschiedliche Aufgaben: CUDA Cores dienen als universelle Recheneinheiten für klassische Grafik- und Parallelberechnungen, Tensor Cores sind spezialisierte KI-Beschleuniger für Matrixoperationen beim Deep Learning und RT Cores bilden dedizierte Hardware zur Berechnung von Lichtstrahlen (Raytracing), zum Beispiel für Schatten und Reflexionen.

CUDA, Tensor & RT Cores im Vergleich

Viele moderne NVIDIA-GPUs bestehen nicht mehr nur aus einer einzigen Art von Recheneinheit. Stattdessen kombinieren sie auf einem Chip mehrere spezialisierte Hardware-Blöcke, die jeweils für unterschiedliche Aufgaben optimiert sind.

Das ist einer der Gründe, warum dieselbe GPU ganz verschiedene Prozesse beschleunigen kann: Sie rendert Spiele, berechnet KI-Modelle, unterstützt Videobearbeitung und ermöglicht realistischere Licht- und Schatteneffekte per Raytracing. Dabei übernimmt nicht jede Einheit alles. Vielmehr gibt es eine klare Arbeitsteilung.

Im Zentrum stehen die Technologien CUDA Cores, Tensor Cores und RT Cores:

CUDA Cores sind die flexiblen Allrounder für viele klassische Rechen- und Grafikaufgaben.
Tensor Cores sind Spezialisten für Matrixberechnungen, wie sie vor allem bei KI und Machine Learning vorkommen. Sie stellen die spezialisierte Matrix-Rechenleistung bereit, die moderne KI-Workloads für Training und Inferenz benötigen.
RT Cores wiederum beschleunigen bestimmte Raytracing-Berechnungen, etwa die Frage, welche Objekte ein Lichtstrahl in einer 3D-Szene trifft.

Cloud GPU VM

Maximale KI-Performance mit Ihrer Cloud GPU VM

Exklusive NVIDIA H200 GPUs für höchste Rechenleistung
Garantierte Performance durch vollständig dedizierte CPU-Kerne
100 % Hosting in Deutschland für maximale Datensicherheit und DSGVO-Konformität
Einfaches, kalkulierbares Preismodell mit festem Preis pro Stunde

GPU-Technologien bei unterschiedlichen Herstellern

CUDA Cores, Tensor Cores und RT Cores sind Bezeichnungen von NVIDIA. Andere GPU-Hersteller wie AMD oder Intel verfolgen ähnliche Grundideen, verwenden aber andere Bezeichnungen und setzen sie technisch anders um. AMD spricht zum Beispiel von Compute Units, AI Accelerators und Ray Accelerators (auch Raytracing Accelerators). Intel nutzt Begriffe wie Xe-Cores, XMX Engines oder Ray Tracing Units. Die genaue Architektur unterscheidet sich also je nach Hersteller. Die aufgeführte, grundlegende Arbeitsteilung moderner GPUs ist aber vergleichbar.

CUDA Cores: die vielseitigen Recheneinheiten

CUDA Cores sind die klassischen Recheneinheiten in NVIDIA-GPUs. Sie sitzen in größeren Blöcken, den sogenannten Streaming Multiprocessors, und übernehmen viele der allgemeinen Berechnungen.

Man kann sie sich als die Allrounder der GPU vorstellen: flexible Rechenwerke, die nahezu jede mathematische Standardoperation ausführen können. Sie berechnen zum Beispiel Shader in Spielen, verarbeiten Bilddaten oder führen physikalische Simulationen aus. Ihr Spezialgebiet ist allerdings die massiv parallele Verarbeitung von Gleitkommazahlen, insbesondere im Single-Precision-Format (FP32), weshalb sie oft schlicht als FP32 Engines bezeichnet werden. Seit der RTX-Blackwell-Generation ist diese Bezeichnung allerdings etwas zu kurz gegriffen: Die Shader-Kerne sind dort vollständig FP32/INT32-fähig. Sie können pro Takt jedoch entweder Gleitkomma- oder Integer-Operationen ausführen.

Das Fundament der CUDA-Architektur bildet SIMT (Single Instruction, Multiple Threads). Das Ausführungsmodell ähnelt SIMD (Single Instruction, Multiple Data), ist aber auf viele parallel laufende Threads ausgelegt. Dabei werden jeweils 32 Threads zu einer Gruppe, dem sogenannten Warp, zusammengefasst.

Alle Threads eines Warps führen im Regelfall denselben Befehl aus, operieren dabei aber auf ihren eigenen, voneinander unabhängigen Daten und Registern. Soll eine GPU etwa eine große Anzahl an Pixeln einfärben, muss sie den Befehl „multipliziere den Farbwert mit 0,5“ nicht für jedes Pixel vollständig nacheinander ausführen. Stattdessen verteilt sie die Arbeit auf viele parallele Threads und Warps, die gleichartige Operationen gleichzeitig abarbeiten. Große, gleichförmige Datenmengen lassen sich so deutlich schneller verarbeiten.

Typische Aufgaben für CUDA Cores

CUDA Cores sind überall dort stark, wo viele ähnliche Berechnungen parallel ausgeführt werden können. Dazu gehören zum Beispiel:

klassisches Rendering und Shading in Spielen
Vertex-, Pixel- und Compute-Shader
Bildbearbeitung, Filter und Postprocessing-Effekte
Physiksimulationen, etwa Partikel, Flüssigkeiten oder Kollisionen
wissenschaftliche Berechnungen und numerische Simulationen
allgemeine GPGPU-Aufgaben, also Rechenaufgaben außerhalb klassischer Grafik
Vorverarbeitung von Daten für KI-Workflows
Teile von Medien-Pipelines, zum Beispiel Bild- oder Videovorverarbeitung

Tensor Cores: Spezialisten für KI und Matrixberechnungen

Mit dem Aufstieg von Deep Learning stiegen auch die Anforderungen an GPUs. Der Grund: Neuronale Netze bestehen zu einem großen Teil aus sehr vielen Matrixberechnungen. Besonders beim Training und bei der Inferenz großer KI-Modelle müssen riesige Zahlenblöcke immer wieder miteinander multipliziert und addiert werden.

CUDA Cores können solche Berechnungen grundsätzlich ebenfalls ausführen. Sie sind flexibel, aber nicht speziell dafür gebaut, große Matrixoperationen mit maximalem Durchsatz abzuarbeiten. Genau hier kommen Tensor Cores ins Spiel. Sie sind spezialisierte Recheneinheiten in modernen NVIDIA-GPUs, die Matrix- und Tensoroperationen deutlich schneller verarbeiten können als allgemeine Recheneinheiten.

Tensor Cores beschleunigen die sogenannte GEMM (General Matrix Multiply), also die allgemeine Matrix-Matrix-Multiplikation. Sie können ganze kleine Matrixblöcke auf einmal verarbeiten, indem sie viele Multiplikationen und Additionen in einer spezialisierten Hardware-Operation bündeln.

Ein wichtiger Grund für die hohe Geschwindigkeit von Tensor Cores ist Mixed Precision, also das Rechnen mit gemischter Genauigkeit. Statt jede Berechnung durchgehend mit hoher FP32-Genauigkeit auszuführen, nutzen Tensor Cores oft kleinere Zahlenformate. Dazu gehören je nach GPU-Generation zum Beispiel FP16, BF16, TF32, INT8, FP8 oder FP4.

Der Vorteil: Kleinere Zahlenformate benötigen weniger Speicherplatz, lassen sich schneller übertragen und können mit höherem Durchsatz verarbeitet werden. Gleichzeitig werden wichtige Zwischenergebnisse oft in höherer Genauigkeit gesammelt, damit sich Rundungsfehler nicht zu stark aufaddieren. Für viele KI-Anwendungen ist das ein guter Kompromiss. Die Berechnungen werden deutlich schneller und effizienter, während die Ergebnisqualität meist weitgehend erhalten bleibt.

Typische Aufgaben für Tensor Cores

Tensor Cores kommen vor allem dort zum Einsatz, wo sehr viele Matrix- oder Tensorberechnungen anfallen. Dazu gehören zum Beispiel:

Training tiefer neuronaler Netze
Inferenz großer Sprachmodelle und generativer KI
Transformer-Modelle, Diffusionsmodelle und Empfehlungssysteme
KI-gestütztes Bild-Upscaling und Frame-Generierung, zum Beispiel DLSS
Sprach-, Bild- und Objekterkennung
niedrigpräzise bzw. quantisierte Inferenz mit Formaten wie INT8, FP8 oder FP4
wissenschaftliche Anwendungen mit viel linearer Algebra

RT Cores – die Raytracing-Beschleuniger

Die dritte Spezialeinheit, die RT Cores, adressiert ein notorisch rechenintensives Grafikproblem: das hardwarebeschleunigte Raytracing. Beim Raytracing werden Lichtstrahlen durch eine Szene verfolgt, um Schatten, Reflexionen, Brechungen und globale Beleuchtung physikalisch realistischer zu simulieren. Der Rechenaufwand dafür ist enorm, da für jeden einzelnen Strahl bestimmt werden muss, welches geometrische Objekt er als Erstes trifft.

Deshalb verwenden Raytracing-Systeme sogenannte Bounding Volume Hierarchies, kurz BVH. Das ist eine Art Suchstruktur für die 3D-Szene. Man kann sie sich wie verschachtelte Hüllboxen vorstellen. Große Bereiche der Szene werden zunächst grob umschlossen. Nur wenn ein Strahl eine solche Box trifft, wird genauer geprüft, welche kleineren Bereiche oder Dreiecke darin relevant sind. So muss die GPU nicht jedes Dreieck einzeln testen. Sie kann viele Bereiche direkt ausschließen und sich Schritt für Schritt zu den wenigen Objekten vorarbeiten, die der Strahl tatsächlich treffen könnte.

Genau hier kommen die RT Cores zum Einsatz. Sie beschleunigen vor allem zwei besonders wichtige Aufgaben:

BVH-Traversal: Durchlaufen der Hüllbox-Struktur
Ray-Triangle-Intersection-Tests: Prüfung, ob und wo ein Strahl ein bestimmtes Polygon trifft

Der entscheidende Vorteil ist, dass diese Tests fest verdrahtet in den RT Cores ablaufen, statt die CUDA Cores zu belasten. Damit werden die universellen Shader-Einheiten entlastet und können sich parallel um Schattierung, Materialberechnung und andere Aufgaben kümmern. Ohne diese Auslagerung wäre Raytracing in Echtzeit auf dem heutigen Niveau schlicht nicht möglich.

Hinweis

Neuere RT-Core-Generationen gehen über diese Grundfunktionen hinaus. In der RTX-Blackwell-Generation unterstützen die Raytracing-Kerne unter anderem Mega Geometry für sehr detailreiche Szenen sowie Linear Swept Spheres, um feine Strukturen wie Haare, Fell oder Gras effizienter zu berechnen.

Typische Aufgaben für RT Cores

RT Cores kommen immer dann zum Einsatz, wenn viele Strahlen durch eine 3D-Szene verfolgt und mit der Geometrie der Szene abgeglichen werden müssen. Typische Einsatzbereiche sind zum Beispiel:

Echtzeit-Raytracing in Spielen, etwa für realistischere Reflexionen, Schatten und Umgebungsverdeckung
Path Tracing und globale Beleuchtung für besonders realistische 3D-Szenen
Rendering und Visualisierung in Architektur, Produktdesign, Film und Animation
physikalisch basiertes Rendering, bei dem Licht, Materialien und Oberflächen möglichst realitätsnah simuliert werden
schnelle Abfragen in 3D-Szenen, zum Beispiel über BVH-Strukturen
wissenschaftliche Visualisierung, wenn große Datenmengen mit Strahlverfolgung dargestellt werden

Das Zusammenspiel: wie CUDA, Tensor und RT Cores zusammenarbeiten

Die Stärke moderner NVIDIA-GPUs liegt nicht nur in einzelnen Recheneinheiten, sondern in ihrer Arbeitsteilung. CUDA Cores, Tensor Cores und RT Cores übernehmen unterschiedliche Aufgaben und ergänzen sich dabei. Besonders gut lässt sich das an einer modernen Spielszene mit Raytracing und KI-Upscaling erklären:

Zuerst übernehmen die CUDA Cores zusammen mit weiteren spezialisierten Einheiten viele klassische Grafikaufgaben. Dazu gehören zum Beispiel Geometrie, Rasterisierung, Shader, Texturen und Materialeffekte. Sie sorgen also für einen großen Teil der eigentlichen Bildberechnung.
Wenn Raytracing aktiviert ist, kommen zusätzlich die RT Cores ins Spiel. Sie beschleunigen die Suche nach Schnittpunkten zwischen Lichtstrahlen und Objekten in der Szene. Dafür durchlaufen sie unter anderem die BVH-Struktur und prüfen, welche Dreiecke von einem Strahl getroffen werden. Die daraus entstehenden Informationen werden anschließend wieder für die weitere Bildberechnung genutzt, zum Beispiel für Schatten, Reflexionen oder Beleuchtung.
Die Tensor Cores veredeln das Resultat schließlich per KI. Bei DLSS (Deep Learning Super Sampling) wird z. B. ein in niedriger Auflösung gerendertes Bild durch ein neuronales Netz hochskaliert und geschärft, sodass die Szene in voller Auflösung erscheint, ohne dass tatsächlich jeder Pixel klassisch berechnet werden musste. Neuere Verfahren erzeugen zusätzlich Zwischenbilder (Frame Generation), wobei neben Tensor Cores auch weitere GPU-Einheiten wie der Optical Flow Accelerator eine Rolle spielen.

Auf diese Weise spart das Zusammenspiel Rechenzeit an genau den Stellen, an denen die jeweilige Einheit am effizientesten ist.

CUDA, Tensor & RT Cores: Direktvergleich

Die drei Kerntypen moderner NVIDIA-GPUs unterscheiden sich vor allem durch ihr jeweiliges Aufgabengebiet, die Art der mathematischen Operationen, die sie ausführen, und die Anwendungsbereiche, für die sie optimiert sind:

Kerntyp	Primäre Aufgabe	Mathematische Operationen	Typische Use Cases
CUDA Cores (Shader-/SIMT-Einheiten, oft als FP32 Engines bezeichnet)	Allrounder für klassische Grafik- und allgemeine GPGPU-Aufgaben	Skalare/Vektor-Operationen im SIMT-Modell, v. a. Single-Precision-Gleitkomma (FP32)	Gaming, Simulation, allgemeine parallele Datenverarbeitung
Tensor Cores	Massive Beschleunigung von Matrix-/Tensoroperationen	Matrix-Matrix-Multiplikation (GEMM) mit Mixed Precision (FP16, BF16, TF32, INT8, FP8, FP4)	KI / Machine Learning, generative KI, wissenschaftliche lineare Algebra
RT Cores	Hardwarebeschleunigtes Raytracing	Geometrische Schnittpunkt-Tests: BVH-Traversal und Ray-Triangle-Intersection; je nach Generation zusätzliche Funktionen wie Opacity Micromaps, Displaced Micro-Meshes oder Mega Geometry	Gaming (Echtzeit-Raytracing), Rendering & Visualisierung in Film, Architektur und Produktdesign

Compute Engine

Die ideale IaaS für Ihre Workloads

Kostengünstige vCPUs und leistungsstarke dedizierte Cores
Höchste Flexibilität ohne Mindestvertragslaufzeit
Inklusive 24/7 Experten-Support

10 Jahre Digital Guide: Eine Erfolgsgeschichte

KI-Telefonassistent: Die Live-Demo

KI-Wissen für Ihren Erfolg

Unser Newsletter bringt Ihnen die wichtigsten Insights rund um KI – verständlich, praxisnah und auf den Punkt.

Was ist eine Cloud GPU?

Cloud GPUs kombinieren Rechenpower mit Flexibilität: Sie liefern GPU-Leistung aus der Cloud für anspruchsvolle Aufgaben wie Machine Learning, Simulationen oder Visualisierung. In diesem Artikel erklären wir die Grundlagen, Leistungsmerkmale, Einsatzgebiete sowie die Vor- und…

GPU Hosting
Lexikon

sakkmesterkeshutterstock

Cloud GPU auswählen: So finden Sie die passende GPU für Ihr Projekt

Welche Cloud GPU passt zu Ihrem Projekt? Dieser Ratgeber erklärt, wofür Cloud GPUs eingesetzt werden, welche Use Cases es gibt und welche Auswahlkriterien in der Praxis entscheidend sind. Sie erfahren, warum VRAM oft limitiert, wie Rechenleistung richtig bewertet wird und wie Sie…

GPU Hosting
Ratgeber

jijomathaidesignersshutterstock

Cloud GPU vs. On-Premise GPU: Die Modelle im Vergleich

Unternehmen stehen vor der Wahl: Cloud GPUs vs. On-Premise GPUs? Cloud GPUs ermöglichen flexible Skalierung ohne große Investitionen. On-Premise GPUs hingegen überzeugen bei dauerhafter Nutzung und strengem Datenschutz. In diesem Vergleichsartikel zeigen wir Ihnen, wie beide…

GPU Hosting
Vergleich

CPU vs. GPU in der Cloud: Wann sich der Umstieg amortisiert

CPUs und GPUs verfolgen unterschiedliche Ziele: Während CPUs auf geringe Latenz und komplexe Logik optimiert sind, liefern GPUs enorme Leistung bei parallelen Berechnungen. Unser Artikel erklärt die technischen Unterschiede bei CPUs vs. GPUs verständlich und zeigt anhand…

GPU Hosting

jijomathaidesignersshutterstock

VRAM-Kalkulation 2026: Cloud-GPUs für LLMs & 4K richtig wählen

Mehr CUDA-Cores bedeuten nicht automatisch mehr Leistung. Bei modernen Sprachmodellen, 4K-Video-Workflows und 3D-Renderings wird häufig der verfügbare VRAM zum eigentlichen Flaschenhals. In diesem Artikel erklären wir, warum Speicherkapazität und Speicherbandbreite oft wichtiger…

GPU Hosting

GPU-Virtualisierung: vGPU, MIG und Passthrough im technischen Vergleich

KI-GPUs sind aus modernen Rechenzentren kaum noch wegzudenken. Doch wie lassen sich ihre Ressourcen sinnvoll virtualisieren? Der Artikel erklärt die wichtigsten Ansätze, zeigt technische Unterschiede zwischen Passthrough, vGPU und MIG und hilft bei der Auswahl der passenden…

Ratgeber
GPU Hosting

CUDA, Tensor & RT Cores: Die Ar­chi­tek­tur moderner GPUs erklärt

CUDA, Tensor & RT Cores im Vergleich

GPU-Tech­no­lo­gien bei un­ter­schied­li­chen Her­stel­lern

CUDA Cores: die viel­sei­ti­gen Re­chen­ein­hei­ten

Typische Aufgaben für CUDA Cores

Tensor Cores: Spe­zia­lis­ten für KI und Ma­trix­be­rech­nun­gen

Typische Aufgaben für Tensor Cores

RT Cores – die Ray­tra­cing-Be­schleu­ni­ger

Typische Aufgaben für RT Cores

Das Zu­sam­men­spiel: wie CUDA, Tensor und RT Cores zu­sam­men­ar­bei­ten

CUDA, Tensor & RT Cores: Di­rekt­ver­gleich

CUDA, Tensor & RT Cores: Die Architektur moderner GPUs erklärt

GPU-Technologien bei unterschiedlichen Herstellern

CUDA Cores: die vielseitigen Recheneinheiten

Tensor Cores: Spezialisten für KI und Matrixberechnungen

RT Cores – die Raytracing-Beschleuniger

Das Zusammenspiel: wie CUDA, Tensor und RT Cores zusammenarbeiten

CUDA, Tensor & RT Cores: Direktvergleich