Bei Python Pandas handelt es sich um eine Open-Source-Bi­blio­thek, die speziell für die Analyse und Ma­ni­pu­la­ti­on von Daten ent­wi­ckelt wurde. Sie bietet Pro­gram­mie­re­rin­nen und Pro­gram­mie­rern Da­ten­struk­tu­ren und Funk­tio­nen, die den Umgang mit nu­me­ri­schen Tabellen und Zeit­rei­hen erheblich ver­ein­fa­chen.

KI-Assistent kostenlos – Ihr smarter All­tags­hel­fer
  • DSGVO-konform & sicher gehostet in Deutsch­land
  • Pro­duk­ti­vi­tät steigern – weniger Aufwand, mehr Output
  • Direkt im Browser starten – ohne In­stal­la­ti­on

Wozu wird Python Pandas ein­ge­setzt?

Die Pandas-Bi­blio­thek wird in ver­schie­de­nen Teil­be­rei­chen der Da­ten­ver­ar­bei­tung ein­ge­setzt. Dank einer Vielzahl an passenden Funk­tio­nen kann ein breites An­wen­dungs­spek­trum mit Python Pandas abgedeckt werden:

  • Ex­plo­ra­ti­ve Da­ten­ana­ly­se (EDA): Python Pandas er­leich­tert die Un­ter­su­chung und das all­ge­mei­ne Ver­ständ­nis von Da­ten­sät­zen. Mit Funk­tio­nen wie describe(), head() oder info() können Ent­wick­le­rin­nen und Ent­wick­ler schnelle Einblicke in die Da­ten­sät­ze gewinnen und sta­tis­ti­sche Zu­sam­men­hän­ge erkennen.
  • Da­ten­be­rei­ni­gung und -vor­ver­ar­bei­tung: Daten aus ver­schie­de­nen Quellen müssen oft bereinigt und in ein kon­sis­ten­tes Format gebracht werden, bevor sie ana­ly­siert werden können. Auch hier bietet Pandas eine Vielzahl von Funk­tio­nen, um Daten zu filtern oder zu trans­for­mie­ren.
  • Da­ten­ma­ni­pu­la­ti­on und -trans­for­ma­ti­on: Die Haupt­auf­ga­be von Pandas ist die Ma­ni­pu­la­ti­on, Analyse und Trans­for­ma­ti­on von Da­ten­sät­zen. Funk­tio­nen wie merge() oder groupby() er­mög­li­chen komplexe Da­ten­ope­ra­tio­nen.
  • Da­ten­vi­sua­li­sie­rung: Ein weiteres prak­ti­sches An­wen­dungs­feld ergibt sich in Kom­bi­na­ti­on mit Bi­blio­the­ken wie Mat­plot­lib oder Seaborn. Auf diese Weise können Pandas-Da­ta­frames direkt in aus­sa­ge­kräf­ti­ge Diagramme um­ge­wan­delt oder geplottet werden.

Vorteile von Python Pandas

Python Pandas bietet zahl­rei­che Vorteile, die es zu einem un­ver­zicht­ba­ren Werkzeug für Da­ten­ana­lys­ten und -ana­lys­tin­nen sowie For­schen­de machen. Die intuitive und leicht ver­ständ­li­che API sorgt für hohe Be­nut­zer­freund­lich­keit. Da die zentralen Da­ten­struk­tu­ren von Python Pandas – DataFrame und Series – Ta­bel­len­kal­ku­la­tio­nen ähneln, ist der Einstieg ebenfalls nicht allzu schwierig.

Ein weiterer zentraler Vorteil von Python Pandas ist die Leis­tungs­fä­hig­keit. Obwohl Python im All­ge­mei­nen als eher langsame Pro­gram­mier­spra­che gilt, kann Pandas selbst große Da­ten­sät­ze effizient ver­ar­bei­ten. Das liegt daran, dass die Bi­blio­thek in C ge­schrie­ben ist und op­ti­mier­te Al­go­rith­men nutzt.

Da Python Pandas eine Vielzahl ver­schie­de­ner Da­ten­for­ma­te, ein­schließ­lich CSV, Excel und SQL-Da­ten­ban­ken, un­ter­stützt und Daten somit aus ver­schie­de­nen Quellen im­por­tiert und ex­por­tiert werden können, bietet die Bi­blio­thek eine be­ein­dru­cken­de Fle­xi­bi­li­tät. Auch die In­te­gra­ti­on mit be­stehen­den Bi­blio­the­ken im Python-Ökosystem wie NumPy oder Mat­plot­lib erhöht die Fle­xi­bi­li­tät und er­mög­licht eine um­fas­sen­de Da­ten­ana­ly­se und -mo­del­lie­rung.

Hinweis

Wenn Sie Kennt­nis­se in anderen Pro­gram­mier­spra­chen wie R oder Da­ten­bank­spra­chen wie SQL haben, werden Ihnen einige Konzepte bei der Arbeit mit Pandas sehr bekannt vorkommen.

Die Pandas-Syntax am prak­ti­schen Beispiel

Um die grund­le­gen­de Syntax von Pandas zu ver­an­schau­li­chen, be­trach­ten wir ein einfaches Beispiel. An­ge­nom­men, wir haben einen CSV-Datensatz, der In­for­ma­tio­nen über Verkäufe enthält. Wir werden diesen Datensatz laden, un­ter­su­chen und einige grund­le­gen­de Da­ten­ma­ni­pu­la­tio­nen durch­füh­ren. Der Datensatz ist wie folgt aufgebaut:

Date,Product,Quantity,Price
2024-01-01,Product A,10,20.00
2024-01-02,Product B,5,30.00
2024-01-03,Product C,7,25.00
2024-01-04,Product A,3,20.00
2024-01-05,Product B,6,30.00
2024-01-06,Product C,2,25.00
2024-01-07,Product A,8,20.00
2024-01-08,Product B,4,30.00
2024-01-09,Product C,10,25.00

Schritt 1: Im­por­tie­ren von Pandas und Laden des Da­ten­sat­zes

Nachdem Python Pandas im­por­tiert wurde, kann man aus den CSV-Daten mithilfe von read_csv() einen Dataframe erstellen.

import pandas as pd
# Laden des Datensatzes aus einer CSV-Datei namens sales_data.csv
df = pd.read_csv('sales_data.csv')
python

Schritt 2: Un­ter­su­chung des Da­ten­sat­zes

Einen ersten Überblick über die Daten erhält man, indem man sich die ersten Zeilen und eine sta­tis­ti­sche Zu­sam­men­fas­sung des Da­ten­sat­zes anzeigen lässt. Hierfür werden die Funk­tio­nen head() und describe() genutzt. Letztere gibt eine Übersicht über wichtige statische Kenn­zif­fern wie den Minimal- und Ma­xi­mal­wert, die Stan­dard­ab­wei­chung oder den Mit­tel­wert aus.

# Anzeigen der ersten fünf Zeilen des Dataframes
print(df.head())
# Anzeigen einer statistischen Zusammenfassung
print(df.describe())
python

Schritt 3: Da­ten­ma­ni­pu­la­ti­on

Auch Da­ten­ma­ni­pu­la­ti­on funk­tio­niert mit Python Pandas. Im folgenden Code­schnip­sel sollen die Ver­kaufs­da­ten nach Produkt und Monat agg­re­giert werden:

# Umwandeln der „Date“-Spalte in ein Datetime-Objekt, damit die Datumsangaben als solche erkannt werden
df['Date'] = pd.to_datetime(df['Date'])
# Extrahieren des Monats aus der „Date“-Spalte und Speicherung in einer neuen Spalte namens „Month“
df['Month'] = df['Date'].dt.month
# Berechnen der Einnahmen (Quantity * Price) und Sicherung in Spalte namens „Revenue“
df['Revenue'] = df['Quantity'] * df['Price']
# Aggregieren der Verkaufsdaten nach Produkt und Monat
sales_summary = df.groupby(['Product', 'Month'])['Revenue'].sum().reset_index()
# Anzeigen der aggregierten Daten
print(sales_summary)
python

Schritt 4: Da­ten­vi­sua­li­sie­rung

Zum Schluss kann man die mo­nat­li­chen Ver­kaufs­zah­len eines Produkts mithilfe der zu­sätz­li­chen Python-Bi­blio­thek Mat­plot­lib vi­sua­li­sie­ren.

import matplotlib.pyplot as plt
# Filtern der Daten für ein bestimmtes Produkt
product_sales = sales_summary[sales_summary['Product'] == 'Product A']
# Erstellen eines Liniendiagramms
plt.plot(product_sales['Month'], product_sales['Revenue'], marker='o')
plt.xlabel('Monat')
plt.gca().set_xticks(product_sales['Month'])
plt.ylabel('Einnahmen')
plt.title('Monatliche Einnahmen für Produkt A')
plt.grid(True)
plt.show()
python

Das vi­sua­li­sier­te Diagramm zeigt, dass im ersten Monat des Jahres 940 Euro mit Produkt A ein­ge­nom­men wurden. Es sieht wie folgt aus:

Bild: Plot der Python-Pandas-Daten
In Kom­bi­na­ti­on mit anderen Bi­blio­the­ken lassen sich Python-Pandas-Daten einfach plotten.
Zum Hauptmenü