Die Python-Pandas-Funktion DataFrame describe() dient dazu, eine sta­tis­ti­sche Zu­sam­men­fas­sung der nu­me­ri­schen Spalten eines Da­ta­Frames zu erstellen. Diese Zu­sam­men­fas­sung enthält wichtige sta­tis­ti­sche Kenn­zif­fern wie Mit­tel­wert, Stan­dard­ab­wei­chung, Minimum, Maximum und ver­schie­de­ne Quantile der Daten.

Web­hos­ting
Das beste Web­hos­ting zum Spit­zen­preis
  • 3x schneller und 60 % günstiger
  • Maximale Ver­füg­bar­keit mit > 99.99 %
  • Nur bei IONOS: Bis zu 500 GB Spei­cher­platz inklusive

Syntax der Pandas-describe()-Funktion

Die grund­le­gen­de Syntax der Pandas-describe()-Funktion für einen DataFrame ist wenig kom­pli­ziert und sieht wie folgt aus:

DataFrame.describe(percentiles=None, include=None, exclude=None)
python

Relevante Parameter von Pandas DataFrame.describe()

Mithilfe einiger Parameter können Sie An­pas­sun­gen an der Ausgabe der describe()-Funktion vornehmen. Diese Parameter lauten:

Parameter Be­schrei­bung Stan­dard­wert
percentiles Listet die ge­wünsch­ten Quantile auf, die in der Be­schrei­bung enthalten sein sollen [.25, .5, .75]
include Bestimmt, welche Da­ten­ty­pen in die Be­schrei­bung ein­be­zo­gen werden sollen; mögliche Werte sind numpy.number, numpy.object, all oder None None
exclude Bestimmt, welche Da­ten­ty­pen von der Be­schrei­bung aus­ge­schlos­sen werden sollen; Werte analog zu include None
De­fi­ni­ti­on

Sta­tis­ti­sche Quantile sind Werte, die eine geordnete Da­ten­men­ge in gleich große Ab­schnit­te teilen und anzeigen, welcher Pro­zent­satz der Da­ten­punk­te unterhalb dieses Schwel­len­wer­tes liegt. Sie dienen dazu, die Ver­tei­lung der Daten zu verstehen, und können z. B. den Median (50. Perzentil), das 25. und 75. Perzentil umfassen.

An­wen­dungs­bei­spie­le von Pandas describe()

Die Pandas-Funktion DataFrame.describe() wird vor allem dann genutzt, wenn ein schneller Überblick über die wich­tigs­ten sta­tis­ti­schen Kenn­zif­fern eines Da­ten­sat­zes gewünscht ist.

Beispiel 1: Sta­tis­ti­sche Zu­sam­men­fas­sung nu­me­ri­scher Daten

Im folgenden Beispiel wird der Dataframe df be­trach­tet, der eine Reihe ver­schie­de­ner Ver­kaufs­da­ten enthält.

import pandas as pd
import numpy as np
# Beispiel DataFrame mit Verkaufsdaten
data = {
    'Product': ['A', 'B', 'C', 'D', 'E'],
    'Quantity': [10, 20, 15, 5, 30],
    'Price': [100, 150, 200, 80, 120],
    'Revenue': [1000, 3000, 3000, 400, 3600]
}
df = pd.DataFrame(data)
print(df)
python

Man kann nun Pandas describe() verwenden, um eine sta­tis­ti­sche Zu­sam­men­fas­sung der nu­me­ri­schen Spalten zu erhalten:

summary = df.describe()
print(summary)
python

Der Funk­ti­ons­auf­ruf von Pandas DataFrame.describe() liefert folgenden Output:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
25%    10.000000  100.000000  1000.000000
50%    15.000000  120.000000  3000.000000
75%    20.000000  150.000000  3000.000000
max    30.000000  200.000000  3600.000000```

Dabei haben die aus­ge­ge­be­nen Kenn­zif­fern folgende Bedeutung:

  • count: Anzahl der Nicht-NaN-Einträge
  • mean: Durch­schnitt der Werte (auch mit DataFrame.mean() einsehbar)
  • std: Stan­dard­ab­wei­chung der Werte
  • min, 25%, 50%, 75%, max: Minimum, 25. Perzentil, Median (50. Perzentil), 75. Perzentil, Maximum der Werte

Beispiel 2: Anpassen der Quantile

Man kann Pandas DataFrame.describe()mit den bereits be­schrie­be­nen Pa­ra­me­tern anpassen, um spe­zi­fi­sche Quantile zu be­rück­sich­ti­gen:

# Statistische Zusammenfassung mit angepassten Quantilen
custom_summary = df.describe(percentiles=[0.1, 0.5, 0.9])
print(custom_summary)
python

Der Funk­ti­ons­auf­ruf liefert folgenden Output und be­rück­sich­tigt dabei die gewählten Quantile 10%, 50% (Median) und 90%:

Quantity       Price      Revenue
count   5.000000    5.000000     5.000000
mean   16.000000  130.000000  2200.000000
std     9.617692   46.904158  1407.124728
min     5.000000   80.000000   400.000000
10%     7.000000   88.000000   640.000000
50%    15.000000  120.000000  3000.000000
90%    26.000000  180.000000  3360.000000
max    30.000000  200.000000  3600.000000
Zum Hauptmenü