Pandas mean(): Durchschnittswerte einfach errechnen
Die DataFrame.mean()-Funktion Python Pandas dient zur Berechnung des Durchschnittswerts über eine oder mehrere Achsen eines DataFrames. Pandas mean() ist entscheidend für die Analyse numerischer Daten und kann wertvolle Einblicke in deren Verteilung und Durchschnittswerte liefern.
- 3x schneller und 60 % günstiger
- Maximale Verfügbarkeit mit > 99.99 %
- Nur bei IONOS: Bis zu 500 GB Speicherplatz inklusive
Syntax von Pandas DataFrame.mean()
Die Pandas-mean()-Funktion nimmt bis zu drei Parameter entgegen und folgt einer einfachen grundlegenden Syntax:
DataFrame.mean(axis=None, skipna=True, numeric_only=None)pythonRelevante Parameter
Mithilfe verschiedener Parameter kann das Verhalten von Pandas DataFrame.mean() für Ihren individuellen Anwendungsfall angepasst werden.
| Parameter | Beschreibung | Default-Wert |
|---|---|---|
axis
|
Bestimmt, ob die Berechnung über Zeilen (axis=0) oder Spalten (axis=1) erfolgen soll
|
0
|
skipna
|
Wenn True, werden NaN-Werte ignoriert
|
True
|
numeric_only
|
Wenn True, werden nur numerische Datentypen in die Berechnung einbezogen
|
False
|
Anwendung der Pandas mean()-Funktion
Pandas DataFrame.mean() kann auf verschiedene Weise angewendet werden.
Durchschnittswerte für jede Spalte berechnen
In den folgenden Codebeispielen wird ein Pandas-DataFrame mit den folgenden Beispieldaten betrachtet:
import pandas as pd
data = {
'A': [1, 2, 3, 4],
'B': [4, 5, 6, 7],
'C': [7, 8, 9, 10]
}
df = pd.DataFrame(data)
print(df)pythonDer resultierende DataFrame ist der folgende:
A B C
0 1 4 7
1 2 5 8
2 3 6 9
3 4 7 10Um den Durchschnittswert jeder Spalte zu berechnen, kann die Pandas-mean()-Funktion mit dem Standardparameter axis=0 genutzt werden:
column_means = df.mean()
print(column_means)pythonAuf diese Weise werden die Mittelwerte jeder Spalte (A, B und C) berechnet, indem die Summe der Elemente durch die Anzahl der Elemente in jeder Spalte geteilt wird. Das Ergebnis ist folgende Pandas Series:
A 2.5
B 5.5
C 8.5
dtype: float64Durchschnittswerte für jede Zeile berechnen
Wenn man stattdessen den Durchschnittswert für jede Zeile berechnen möchte, muss hierzu einfach der Parameter axis auf 1 gesetzt werden:
row_means = df.mean(axis=1)
print(row_means)pythonDie Mittelwerte jeder Zeile werden durch den Einsatz von Pandas mean() berechnet, indem die Summe der Elemente durch die Anzahl der Elemente in jeder Zeile geteilt wird. Der Funktionsaufruf liefert folgenden Output:
0 4.0
1 5.0
2 6.0
3 7.0
dtype: float64NaN-Werte ignorieren
Im folgenden Beispiel wird ein anderer DataFrame betrachtet, der einige NaN-Werte enthält:
import pandas as pd
import numpy as np
data = {
'A': [1, 2, np.nan, 4],
'B': [4, np.nan, 6, 7],
'C': [7, 8, 9, np.nan]
}
df = pd.DataFrame(data)
print(df)pythonDer obige Code resultiert in folgendem DataFrame:
A B C
0 1.0 4.0 7.0
1 2.0 NaN 8.0
2 NaN 6.0 9.0
3 4.0 7.0 NaNUm den Durchschnitt unter Berücksichtigung von NaN-Werten zu berechnen, wird der Parameter skipna verwendet. Der Standardwert ist True, was bedeutet, dass NaN-Werte von Pandas mean() automatisch ignoriert werden. Würde skipna=False gesetzt, würde der Mittelwert für jede Spalte, die mindestens einen NaN-Wert enthält, ebenfalls NaN sein.
mean_with_nan = df.mean()
print(mean_with_nan)pythonDer Funktionsaufruf von Pandas mean() liefert:
A 2.333333
B 5.666667
C 8.000000
dtype: float64
