Bench­mar­king ver­gleicht Leis­tun­gen anhand stan­dar­di­sier­ter Tests. Bei KI werden zum Beispiel Sprach­ver­ständ­nis, logisches Denken oder Pro­gram­mier­fä­hig­kei­ten gemessen. Die Er­geb­nis­se helfen beim Vergleich, zeigen aber nur Teil­aspek­te. Deswegen sagen sie wenig darüber aus, wie gut ein Modell in realen An­wen­dungs­si­tua­tio­nen funk­tio­niert.

KI-Lösungen
Mehr Digital-Power dank Künst­li­cher In­tel­li­genz
  • In Sekunden zur Online-Präsenz
  • Mehr Wachstum mit KI-Marketing
  • Zeit und Res­sour­cen sparen

Was sind Bench­marks?

Bench­marks sind Ver­gleichs­maß­stä­be, mit denen sich die Leistung von Systemen objektiv bewerten lässt. Sie werden seit Jahr­zehn­ten ein­ge­setzt, zum Beispiel bei Pro­zes­so­ren, Gra­fik­kar­ten oder Netz­wer­ken. Immer geht es darum, un­ter­schied­li­che Lösungen unter gleichen Be­din­gun­gen zu testen und ver­gleich­bar zu machen.

Über­tra­gen auf künst­li­che In­tel­li­genz (KI) bedeuten Bench­marks: stan­dar­di­sier­te Tests, mit denen gemessen wird, wie gut ein KI-Modell bestimmte Aufgaben löst. Dazu zählen etwa:

  • das Verstehen von Texten,
  • logisches Schluss­fol­gern,
  • das Lösen ma­the­ma­ti­scher Probleme
  • oder das Erkennen von Bildern.

KI-Bench­marks helfen dabei, Modelle ein­zu­ord­nen und Fort­schrit­te messbar zu machen, ohne sich nur auf sub­jek­ti­ve Eindrücke zu verlassen. Die Er­geb­nis­se von KI-Bench­marks werden je nach Test un­ter­schied­lich aus­ge­ge­ben. Häufig handelt es sich um Pro­zent­wer­te oder Punkt­zah­len, etwa auf einer Skala von 0 bis 100. Diese zeigen, wie viele Aufgaben korrekt gelöst wurden. In anderen Fällen wird ein Score berechnet, bei dem mehrere Kriterien zu­sam­men­flie­ßen.

Hinweis

Oft gilt das aktuell beste Ergebnis als Re­fe­renz­wert, an dem sich neue Modelle messen lassen. Wichtig ist dabei: Ein höherer Score bedeutet nicht au­to­ma­tisch, dass ein Modell insgesamt besser ist. Bench­marks zeigen immer nur die Leistung in genau dem ge­tes­te­ten Bereich und müssen im richtigen Kontext in­ter­pre­tiert werden.

Die wich­tigs­ten KI-Bench­marks zur Messung von KI-Per­for­mance

Es gibt nicht den einen Benchmark für alles. Statt­des­sen exis­tie­ren un­ter­schied­li­che Tests für ver­schie­de­ne Fä­hig­kei­ten. Hier sind die gän­gigs­ten für die Per­for­mance von KIs:

  • MMLU (Massive Multitask Language Un­der­stan­ding): Dieser Benchmark misst, wie gut ein KI-Modell komplexe Aufgaben aus vielen un­ter­schied­li­chen Wis­sens­ge­bie­ten lösen kann. Dazu gehören unter anderem Recht, Medizin, Na­tur­wis­sen­schaf­ten und Ma­the­ma­tik. MMLU gilt als einer der wich­tigs­ten Maßstäbe für all­ge­mei­nes Sprach­ver­ständ­nis und breites Fach­wis­sen.
  • GSM8K: GSM8K kon­zen­triert sich auf ma­the­ma­ti­sches Schluss­fol­gern. Die Aufgaben bestehen aus Text­auf­ga­ben, bei denen mehrere Re­chen­schrit­te notwendig sind. Der Benchmark zeigt, ob ein Modell logisch rechnen kann oder lediglich plausible, aber falsche Antworten erzeugt.
  • HumanEval: HumanEval wird genutzt, um Pro­gram­mier­fä­hig­kei­ten von KI-Modellen zu bewerten. Die Modelle müssen kurze Code-Aufgaben korrekt umsetzen. Der Benchmark ist besonders relevant für den Vergleich von KI-Systemen, die beim Schreiben oder Verstehen von Code ein­ge­setzt werden.
  • Truthful­QA: Dieser Benchmark prüft, wie zu­ver­läs­sig ein Modell bei fak­ti­schen Fragen antwortet. Er legt den Fokus darauf, ob eine KI zu Hal­lu­zi­na­tio­nen neigt, ins­be­son­de­re bei ir­re­füh­ren­den oder mehr­deu­ti­gen Fra­ge­stel­lun­gen.
  • MMBench: MMBench ist ein Benchmark für mul­ti­mo­da­le KI-Modelle. Er testet, wie gut Text- und Bild­in­for­ma­tio­nen gemeinsam ver­ar­bei­tet werden können. Die Aufgaben erfordern das Verstehen visueller Inhalte in Kom­bi­na­ti­on mit sprach­li­chen An­wei­sun­gen.
  • VQA (Visual Question Answering): VQA misst, wie gut ein Modell Fragen zu Bildern be­ant­wor­ten kann. Dabei geht es nicht nur um das Erkennen von Objekten, sondern auch um Zu­sam­men­hän­ge, Details und logische Schlüsse auf Basis visueller In­for­ma­tio­nen.

Welche Mög­lich­kei­ten gibt es, KI-Bench­marks zu messen?

Bench­marks können auf un­ter­schied­li­che Weise gemessen werden. Am häu­figs­ten werden vor­de­fi­nier­te Da­ten­sät­ze genutzt, die öf­fent­lich verfügbar sind. Das Modell bekommt dieselben Aufgaben wie andere Modelle zuvor, und die Er­geb­nis­se werden au­to­ma­tisch aus­ge­wer­tet. In der Praxis nutzen viele Ent­wick­le­rin­nen und Ent­wick­ler Benchmark-Frame­works oder Bi­blio­the­ken, die Tests stan­dar­di­siert durch­füh­ren. Diese sorgen dafür, dass Prompts, Aus­wer­tung und Bewertung re­pro­du­zier­bar bleiben.

Daneben gibt es manuelle Eva­lua­tio­nen, bei denen Menschen die Antworten bewerten. Das ist vor allem dann sinnvoll, wenn es um Text­qua­li­tät, Ver­ständ­lich­keit oder Krea­ti­vi­tät geht. Solche Be­wer­tun­gen sind auf­wen­di­ger, liefern aber zu­sätz­li­che Einblicke. Zunehmend ver­brei­tet sind auch kom­bi­nier­te Ansätze, bei denen au­to­ma­ti­sche Bench­marks mit mensch­li­chem Feedback ergänzt werden. So lassen sich sowohl messbare Leistung als auch prak­ti­sche Nutz­bar­keit bewerten.

Wann ist es sinnvoll, Bench­marks zu messen?

Bench­marks sind besonders dann sinnvoll, wenn Modelle ver­gli­chen werden sollen. Zum Beispiel bei der Ent­schei­dung, welches KI-Modell in einem Produkt ein­ge­setzt wird. Sie helfen, Un­ter­schie­de objektiv zu erkennen. Auch bei Modell-Updates spielen Bench­marks eine wichtige Rolle. Sie zeigen, ob eine neue Version tat­säch­lich besser ist oder sich in be­stimm­ten Bereichen ver­schlech­tert hat. Hier sind einige Beispiele für Benchmark-Messungen:

  • Mo­dell­aus­wahl für Produkte: Un­ter­neh­men nutzen Bench­marks, um zu ent­schei­den, welches KI-Modell sie einsetzen. Ein Chatbot für den Kun­den­sup­port wird zum Beispiel bevorzugt mit Modellen getestet, die in Sprach­ver­ständ­nis-Bench­marks gut ab­schnei­den. Für Code-Tools sind dagegen Bench­marks wie HumanEval re­le­van­ter.
  • Qua­li­täts­si­che­rung bei Updates: Bei neuen Mo­dell­ver­sio­nen werden Bench­marks ein­ge­setzt, um zu prüfen, ob sich die Leistung ver­bes­sert oder ver­schlech­tert hat. So lässt sich objektiv messen, ob ein Update tat­säch­lich Fort­schrit­te bringt oder nur andere Schwer­punk­te setzt.
  • Forschung und Ent­wick­lung: In der KI-Forschung dienen Bench­marks als ge­mein­sa­me Ver­gleichs­ba­sis. Sie machen Fort­schrit­te sichtbar und helfen dabei, gezielt Schwächen zu iden­ti­fi­zie­ren, etwa beim logischen Denken oder bei ma­the­ma­ti­schen Aufgaben.
  • Marketing und Kom­mu­ni­ka­ti­on: Viele KI-Anbieter nutzen Benchmark-Er­geb­nis­se, um Leis­tungs­fä­hig­keit zu de­mons­trie­ren. Ein hoher Score wird dabei oft als Qua­li­täts­merk­mal her­vor­ge­ho­ben, auch wenn er nur einen Teil der tat­säch­li­chen Fä­hig­kei­ten abbildet.
IONOS AI Model Hub
Erste deutsche, mul­ti­mo­da­le KI-Plattform
  • 100 % DSGVO-konform und sicher in Deutsch­land gehostet
  • Die leis­tungs­stärks­ten KI-Modelle auf einer Plattform
  • Kein Vendor Lock-in durch Open Source

Die Grenzen von KI-Bench­marks

Die Grenzen von KI-Bench­marks liegen vor allem darin, dass sie immer nur einen sehr be­grenz­ten Aus­schnitt der tat­säch­li­chen Leis­tungs­fä­hig­keit eines Modells abbilden. Gemessen wird aus­schließ­lich das, was der jeweilige Test vorgibt. Ein Modell kann in einem be­stimm­ten Benchmark sehr gute Werte erzielen und im prak­ti­schen Einsatz dennoch schwä­cheln, etwa bei kreativen Aufgaben, bei der Tonalität oder beim Umgang mit unklaren Fra­ge­stel­lun­gen. Hinzu kommt, dass viele Bench­marks öf­fent­lich bekannt sind. Modelle können gezielt darauf optimiert werden, diese Tests zu bestehen, ohne dass sich ihre all­ge­mei­ne Pro­blem­lö­se­fä­hig­keit im gleichen Maß ver­bes­sert.

Dieses so­ge­nann­te Benchmark-Over­fit­ting verzerrt die Aus­sa­ge­kraft der Er­geb­nis­se. In der Praxis sind An­wen­dungs­fäl­le zudem deutlich komplexer als stan­dar­di­sier­te Tests. Nut­zer­an­fra­gen sind oft unpräzise, wi­der­sprüch­lich oder emotional, und Faktoren wie Ant­wort­sta­bi­li­tät, Feh­ler­ver­hal­ten oder Kon­text­treue spielen eine größere Rolle als ein einzelner Score. Auch lassen sich Benchmark-Er­geb­nis­se nur ein­ge­schränkt mit­ein­an­der ver­glei­chen, da un­ter­schied­li­che Tests ver­schie­de­ne Fä­hig­kei­ten messen und teils nach un­ter­schied­li­chen Be­wer­tungs­me­tho­den aus­ge­wer­tet werden. Bench­marks liefern damit wertvolle An­halts­punk­te, sollten aber immer im Kontext realer Nutzung in­ter­pre­tiert werden.

Zum Hauptmenü