Innerhalb einer NVIDIA-GPU über­neh­men drei spe­zia­li­sier­te Re­chen­ein­hei­ten bzw. Hardware-Blöcke un­ter­schied­li­che Aufgaben: CUDA Cores dienen als uni­ver­sel­le Re­chen­ein­hei­ten für klas­si­sche Grafik- und Par­al­lel­be­rech­nun­gen, Tensor Cores sind spe­zia­li­sier­te KI-Be­schleu­ni­ger für Ma­trix­ope­ra­tio­nen beim Deep Learning und RT Cores bilden de­di­zier­te Hardware zur Be­rech­nung von Licht­strah­len (Ray­tra­cing), zum Beispiel für Schatten und Re­fle­xio­nen.

CUDA, Tensor & RT Cores im Vergleich

Viele moderne NVIDIA-GPUs bestehen nicht mehr nur aus einer einzigen Art von Re­chen­ein­heit. Statt­des­sen kom­bi­nie­ren sie auf einem Chip mehrere spe­zia­li­sier­te Hardware-Blöcke, die jeweils für un­ter­schied­li­che Aufgaben optimiert sind.

Das ist einer der Gründe, warum dieselbe GPU ganz ver­schie­de­ne Prozesse be­schleu­ni­gen kann: Sie rendert Spiele, berechnet KI-Modelle, un­ter­stützt Vi­deo­be­ar­bei­tung und er­mög­licht rea­lis­ti­sche­re Licht- und Schat­ten­ef­fek­te per Ray­tra­cing. Dabei übernimmt nicht jede Einheit alles. Vielmehr gibt es eine klare Ar­beits­tei­lung.

Im Zentrum stehen die Tech­no­lo­gien CUDA Cores, Tensor Cores und RT Cores:

  • CUDA Cores sind die flexiblen All­roun­der für viele klas­si­sche Rechen- und Gra­fik­auf­ga­ben.
  • Tensor Cores sind Spe­zia­lis­ten für Ma­trix­be­rech­nun­gen, wie sie vor allem bei KI und Machine Learning vorkommen. Sie stellen die spe­zia­li­sier­te Matrix-Re­chen­leis­tung bereit, die moderne KI-Workloads für Training und Inferenz benötigen.
  • RT Cores wiederum be­schleu­ni­gen bestimmte Ray­tra­cing-Be­rech­nun­gen, etwa die Frage, welche Objekte ein Licht­strahl in einer 3D-Szene trifft.
Cloud GPU VM
Maximale KI-Per­for­mance mit Ihrer Cloud GPU VM
  • Exklusive NVIDIA H200 GPUs für höchste Re­chen­leis­tung
  • Ga­ran­tier­te Per­for­mance durch voll­stän­dig de­di­zier­te CPU-Kerne
  • 100 % Hosting in Deutsch­land für maximale Da­ten­si­cher­heit und DSGVO-Kon­for­mi­tät
  • Einfaches, kal­ku­lier­ba­res Preis­mo­dell mit festem Preis pro Stunde

GPU-Tech­no­lo­gien bei un­ter­schied­li­chen Her­stel­lern

CUDA Cores, Tensor Cores und RT Cores sind Be­zeich­nun­gen von NVIDIA. Andere GPU-Her­stel­ler wie AMD oder Intel verfolgen ähnliche Grund­ideen, verwenden aber andere Be­zeich­nun­gen und setzen sie technisch anders um. AMD spricht zum Beispiel von Compute Units, AI Ac­ce­le­ra­tors und Ray Ac­ce­le­ra­tors (auch Ray­tra­cing Ac­ce­le­ra­tors). Intel nutzt Begriffe wie Xe-Cores, XMX Engines oder Ray Tracing Units. Die genaue Ar­chi­tek­tur un­ter­schei­det sich also je nach Her­stel­ler. Die auf­ge­führ­te, grund­le­gen­de Ar­beits­tei­lung moderner GPUs ist aber ver­gleich­bar.

CUDA Cores: die viel­sei­ti­gen Re­chen­ein­hei­ten

CUDA Cores sind die klas­si­schen Re­chen­ein­hei­ten in NVIDIA-GPUs. Sie sitzen in größeren Blöcken, den so­ge­nann­ten Streaming Mul­tipro­ces­sors, und über­neh­men viele der all­ge­mei­nen Be­rech­nun­gen.

Man kann sie sich als die All­roun­der der GPU vor­stel­len: flexible Re­chen­wer­ke, die nahezu jede ma­the­ma­ti­sche Stan­dard­ope­ra­ti­on ausführen können. Sie berechnen zum Beispiel Shader in Spielen, ver­ar­bei­ten Bilddaten oder führen phy­si­ka­li­sche Si­mu­la­tio­nen aus. Ihr Spe­zi­al­ge­biet ist al­ler­dings die massiv parallele Ver­ar­bei­tung von Gleit­kom­ma­zah­len, ins­be­son­de­re im Single-Precision-Format (FP32), weshalb sie oft schlicht als FP32 Engines be­zeich­net werden. Seit der RTX-Blackwell-Ge­ne­ra­ti­on ist diese Be­zeich­nung al­ler­dings etwas zu kurz gegriffen: Die Shader-Kerne sind dort voll­stän­dig FP32/INT32-fähig. Sie können pro Takt jedoch entweder Gleit­kom­ma- oder Integer-Ope­ra­tio­nen ausführen.

Das Fundament der CUDA-Ar­chi­tek­tur bildet SIMT (Single In­s­truc­tion, Multiple Threads). Das Aus­füh­rungs­mo­dell ähnelt SIMD (Single In­s­truc­tion, Multiple Data), ist aber auf viele parallel laufende Threads ausgelegt. Dabei werden jeweils 32 Threads zu einer Gruppe, dem so­ge­nann­ten Warp, zu­sam­men­ge­fasst.

Alle Threads eines Warps führen im Regelfall denselben Befehl aus, operieren dabei aber auf ihren eigenen, von­ein­an­der un­ab­hän­gi­gen Daten und Registern. Soll eine GPU etwa eine große Anzahl an Pixeln einfärben, muss sie den Befehl „mul­ti­pli­zie­re den Farbwert mit 0,5“ nicht für jedes Pixel voll­stän­dig nach­ein­an­der ausführen. Statt­des­sen verteilt sie die Arbeit auf viele parallele Threads und Warps, die gleich­ar­ti­ge Ope­ra­tio­nen gleich­zei­tig ab­ar­bei­ten. Große, gleich­för­mi­ge Da­ten­men­gen lassen sich so deutlich schneller ver­ar­bei­ten.

Typische Aufgaben für CUDA Cores

CUDA Cores sind überall dort stark, wo viele ähnliche Be­rech­nun­gen parallel aus­ge­führt werden können. Dazu gehören zum Beispiel:

  • klas­si­sches Rendering und Shading in Spielen
  • Vertex-, Pixel- und Compute-Shader
  • Bild­be­ar­bei­tung, Filter und Postpro­ces­sing-Effekte
  • Phy­sik­si­mu­la­tio­nen, etwa Partikel, Flüs­sig­kei­ten oder Kol­li­sio­nen
  • wis­sen­schaft­li­che Be­rech­nun­gen und nu­me­ri­sche Si­mu­la­tio­nen
  • all­ge­mei­ne GPGPU-Aufgaben, also Re­chen­auf­ga­ben außerhalb klas­si­scher Grafik
  • Vor­ver­ar­bei­tung von Daten für KI-Workflows
  • Teile von Medien-Pipelines, zum Beispiel Bild- oder Vi­deo­vor­ver­ar­bei­tung

Tensor Cores: Spe­zia­lis­ten für KI und Ma­trix­be­rech­nun­gen

Mit dem Aufstieg von Deep Learning stiegen auch die An­for­de­run­gen an GPUs. Der Grund: Neuronale Netze bestehen zu einem großen Teil aus sehr vielen Ma­trix­be­rech­nun­gen. Besonders beim Training und bei der Inferenz großer KI-Modelle müssen riesige Zah­len­blö­cke immer wieder mit­ein­an­der mul­ti­pli­ziert und addiert werden.

CUDA Cores können solche Be­rech­nun­gen grund­sätz­lich ebenfalls ausführen. Sie sind flexibel, aber nicht speziell dafür gebaut, große Ma­trix­ope­ra­tio­nen mit maximalem Durchsatz ab­zu­ar­bei­ten. Genau hier kommen Tensor Cores ins Spiel. Sie sind spe­zia­li­sier­te Re­chen­ein­hei­ten in modernen NVIDIA-GPUs, die Matrix- und Ten­sor­ope­ra­tio­nen deutlich schneller ver­ar­bei­ten können als all­ge­mei­ne Re­chen­ein­hei­ten.

Tensor Cores be­schleu­ni­gen die so­ge­nann­te GEMM (General Matrix Multiply), also die all­ge­mei­ne Matrix-Matrix-Mul­ti­pli­ka­ti­on. Sie können ganze kleine Ma­trix­blö­cke auf einmal ver­ar­bei­ten, indem sie viele Mul­ti­pli­ka­tio­nen und Ad­di­tio­nen in einer spe­zia­li­sier­ten Hardware-Operation bündeln.

Ein wichtiger Grund für die hohe Ge­schwin­dig­keit von Tensor Cores ist Mixed Precision, also das Rechnen mit ge­misch­ter Ge­nau­ig­keit. Statt jede Be­rech­nung durch­ge­hend mit hoher FP32-Ge­nau­ig­keit aus­zu­füh­ren, nutzen Tensor Cores oft kleinere Zah­len­for­ma­te. Dazu gehören je nach GPU-Ge­ne­ra­ti­on zum Beispiel FP16, BF16, TF32, INT8, FP8 oder FP4.

Der Vorteil: Kleinere Zah­len­for­ma­te benötigen weniger Spei­cher­platz, lassen sich schneller über­tra­gen und können mit höherem Durchsatz ver­ar­bei­tet werden. Gleich­zei­tig werden wichtige Zwi­schen­er­geb­nis­se oft in höherer Ge­nau­ig­keit gesammelt, damit sich Run­dungs­feh­ler nicht zu stark auf­ad­die­ren. Für viele KI-An­wen­dun­gen ist das ein guter Kom­pro­miss. Die Be­rech­nun­gen werden deutlich schneller und ef­fi­zi­en­ter, während die Er­geb­nis­qua­li­tät meist weit­ge­hend erhalten bleibt.

Typische Aufgaben für Tensor Cores

Tensor Cores kommen vor allem dort zum Einsatz, wo sehr viele Matrix- oder Ten­sor­be­rech­nun­gen anfallen. Dazu gehören zum Beispiel:

  • Training tiefer neu­ro­na­ler Netze
  • Inferenz großer Sprach­mo­del­le und ge­ne­ra­ti­ver KI
  • Trans­for­mer-Modelle, Dif­fu­si­ons­mo­del­le und Emp­feh­lungs­sys­te­me
  • KI-ge­stütz­tes Bild-Upscaling und Frame-Ge­ne­rie­rung, zum Beispiel DLSS
  • Sprach-, Bild- und Ob­jekt­er­ken­nung
  • nied­rig­prä­zi­se bzw. quan­ti­sier­te Inferenz mit Formaten wie INT8, FP8 oder FP4
  • wis­sen­schaft­li­che An­wen­dun­gen mit viel linearer Algebra

RT Cores – die Ray­tra­cing-Be­schleu­ni­ger

Die dritte Spe­zi­al­ein­heit, die RT Cores, adres­siert ein notorisch re­chen­in­ten­si­ves Gra­fik­pro­blem: das hard­ware­be­schleu­nig­te Ray­tra­cing. Beim Ray­tra­cing werden Licht­strah­len durch eine Szene verfolgt, um Schatten, Re­fle­xio­nen, Bre­chun­gen und globale Be­leuch­tung phy­si­ka­lisch rea­lis­ti­scher zu si­mu­lie­ren. Der Re­chen­auf­wand dafür ist enorm, da für jeden einzelnen Strahl bestimmt werden muss, welches geo­me­tri­sche Objekt er als Erstes trifft.

Deshalb verwenden Ray­tra­cing-Systeme so­ge­nann­te Bounding Volume Hier­ar­chies, kurz BVH. Das ist eine Art Such­struk­tur für die 3D-Szene. Man kann sie sich wie ver­schach­tel­te Hüllboxen vor­stel­len. Große Bereiche der Szene werden zunächst grob um­schlos­sen. Nur wenn ein Strahl eine solche Box trifft, wird genauer geprüft, welche kleineren Bereiche oder Dreiecke darin relevant sind. So muss die GPU nicht jedes Dreieck einzeln testen. Sie kann viele Bereiche direkt aus­schlie­ßen und sich Schritt für Schritt zu den wenigen Objekten vor­ar­bei­ten, die der Strahl tat­säch­lich treffen könnte.

Genau hier kommen die RT Cores zum Einsatz. Sie be­schleu­ni­gen vor allem zwei besonders wichtige Aufgaben:

  • BVH-Traversal: Durch­lau­fen der Hüllbox-Struktur
  • Ray-Triangle-In­ter­sec­tion-Tests: Prüfung, ob und wo ein Strahl ein be­stimm­tes Polygon trifft

Der ent­schei­den­de Vorteil ist, dass diese Tests fest ver­drah­tet in den RT Cores ablaufen, statt die CUDA Cores zu belasten. Damit werden die uni­ver­sel­len Shader-Einheiten entlastet und können sich parallel um Schat­tie­rung, Ma­te­ri­al­be­rech­nung und andere Aufgaben kümmern. Ohne diese Aus­la­ge­rung wäre Ray­tra­cing in Echtzeit auf dem heutigen Niveau schlicht nicht möglich.

Hinweis

Neuere RT-Core-Ge­ne­ra­tio­nen gehen über diese Grund­funk­tio­nen hinaus. In der RTX-Blackwell-Ge­ne­ra­ti­on un­ter­stüt­zen die Ray­tra­cing-Kerne unter anderem Mega Geometry für sehr de­tail­rei­che Szenen sowie Linear Swept Spheres, um feine Struk­tu­ren wie Haare, Fell oder Gras ef­fi­zi­en­ter zu berechnen.

Typische Aufgaben für RT Cores

RT Cores kommen immer dann zum Einsatz, wenn viele Strahlen durch eine 3D-Szene verfolgt und mit der Geometrie der Szene ab­ge­gli­chen werden müssen. Typische Ein­satz­be­rei­che sind zum Beispiel:

  • Echtzeit-Ray­tra­cing in Spielen, etwa für rea­lis­ti­sche­re Re­fle­xio­nen, Schatten und Um­ge­bungs­ver­de­ckung
  • Path Tracing und globale Be­leuch­tung für besonders rea­lis­ti­sche 3D-Szenen
  • Rendering und Vi­sua­li­sie­rung in Ar­chi­tek­tur, Pro­dukt­de­sign, Film und Animation
  • phy­si­ka­lisch basiertes Rendering, bei dem Licht, Ma­te­ria­li­en und Ober­flä­chen möglichst rea­li­täts­nah simuliert werden
  • schnelle Abfragen in 3D-Szenen, zum Beispiel über BVH-Struk­tu­ren
  • wis­sen­schaft­li­che Vi­sua­li­sie­rung, wenn große Da­ten­men­gen mit Strahl­ver­fol­gung dar­ge­stellt werden

Das Zu­sam­men­spiel: wie CUDA, Tensor und RT Cores zu­sam­men­ar­bei­ten

Die Stärke moderner NVIDIA-GPUs liegt nicht nur in einzelnen Re­chen­ein­hei­ten, sondern in ihrer Ar­beits­tei­lung. CUDA Cores, Tensor Cores und RT Cores über­neh­men un­ter­schied­li­che Aufgaben und ergänzen sich dabei. Besonders gut lässt sich das an einer modernen Spiel­sze­ne mit Ray­tra­cing und KI-Upscaling erklären:

  1. Zuerst über­neh­men die CUDA Cores zusammen mit weiteren spe­zia­li­sier­ten Einheiten viele klas­si­sche Gra­fik­auf­ga­ben. Dazu gehören zum Beispiel Geometrie, Ras­te­ri­sie­rung, Shader, Texturen und Ma­te­ri­al­ef­fek­te. Sie sorgen also für einen großen Teil der ei­gent­li­chen Bild­be­rech­nung.
  2. Wenn Ray­tra­cing aktiviert ist, kommen zu­sätz­lich die RT Cores ins Spiel. Sie be­schleu­ni­gen die Suche nach Schnitt­punk­ten zwischen Licht­strah­len und Objekten in der Szene. Dafür durch­lau­fen sie unter anderem die BVH-Struktur und prüfen, welche Dreiecke von einem Strahl getroffen werden. Die daraus ent­ste­hen­den In­for­ma­tio­nen werden an­schlie­ßend wieder für die weitere Bild­be­rech­nung genutzt, zum Beispiel für Schatten, Re­fle­xio­nen oder Be­leuch­tung.
  3. Die Tensor Cores veredeln das Resultat schließ­lich per KI. Bei DLSS (Deep Learning Super Sampling) wird z. B. ein in niedriger Auflösung ge­r­en­der­tes Bild durch ein neu­ro­na­les Netz hoch­ska­liert und geschärft, sodass die Szene in voller Auflösung erscheint, ohne dass tat­säch­lich jeder Pixel klassisch berechnet werden musste. Neuere Verfahren erzeugen zu­sätz­lich Zwi­schen­bil­der (Frame Ge­ne­ra­ti­on), wobei neben Tensor Cores auch weitere GPU-Einheiten wie der Optical Flow Ac­ce­le­ra­tor eine Rolle spielen.

Auf diese Weise spart das Zu­sam­men­spiel Re­chen­zeit an genau den Stellen, an denen die jeweilige Einheit am ef­fi­zi­en­tes­ten ist.

CUDA, Tensor & RT Cores: Di­rekt­ver­gleich

Die drei Kerntypen moderner NVIDIA-GPUs un­ter­schei­den sich vor allem durch ihr je­wei­li­ges Auf­ga­ben­ge­biet, die Art der ma­the­ma­ti­schen Ope­ra­tio­nen, die sie ausführen, und die An­wen­dungs­be­rei­che, für die sie optimiert sind:

Kerntyp Primäre Aufgabe Ma­the­ma­ti­sche Ope­ra­tio­nen Typische Use Cases
CUDA Cores (Shader-/SIMT-Einheiten, oft als FP32 Engines be­zeich­net) All­roun­der für klas­si­sche Grafik- und all­ge­mei­ne GPGPU-Aufgaben Skalare/Vektor-Ope­ra­tio­nen im SIMT-Modell, v. a. Single-Precision-Gleit­kom­ma (FP32) Gaming, Si­mu­la­ti­on, all­ge­mei­ne parallele Da­ten­ver­ar­bei­tung
Tensor Cores Massive Be­schleu­ni­gung von Matrix-/Ten­sor­ope­ra­tio­nen Matrix-Matrix-Mul­ti­pli­ka­ti­on (GEMM) mit Mixed Precision (FP16, BF16, TF32, INT8, FP8, FP4) KI / Machine Learning, ge­ne­ra­ti­ve KI, wis­sen­schaft­li­che lineare Algebra
RT Cores Hard­ware­be­schleu­nig­tes Ray­tra­cing Geo­me­tri­sche Schnitt­punkt-Tests: BVH-Traversal und Ray-Triangle-In­ter­sec­tion; je nach Ge­ne­ra­ti­on zu­sätz­li­che Funk­tio­nen wie Opacity Micromaps, Displaced Micro-Meshes oder Mega Geometry Gaming (Echtzeit-Ray­tra­cing), Rendering & Vi­sua­li­sie­rung in Film, Ar­chi­tek­tur und Pro­dukt­de­sign
Compute Engine
Die ideale IaaS für Ihre Workloads
  • Kos­ten­güns­ti­ge vCPUs und leis­tungs­star­ke de­di­zier­te Cores
  • Höchste Fle­xi­bi­li­tät ohne Min­dest­ver­trags­lauf­zeit
  • Inklusive 24/7 Experten-Support
Zum Hauptmenü