Pandas read_csv(): So lesen Sie CSV-Dateien in Python ein

Inhaltsverzeichnis

Python Pandas read_csv() ist eine der am häufigsten genutzten Methoden, um Daten aus CSV-Dateien zu laden und in einem DataFrame-Format zu sichern. CSV-Dateien (Comma-separated Values) sind ein weit verbreitetes Format zur Speicherung tabellarischer Daten, das von vielen Programmen unterstützt wird.

Webhosting

Das beste Webhosting zum Spitzenpreis

3x schneller und 60 % günstiger
Maximale Verfügbarkeit mit > 99.99 %
Nur bei IONOS: Bis zu 500 GB Speicherplatz inklusive

Syntax von Python Pandas `read_csv()`

Die Funktion pandas.read_csv() erstellt einen Pandas DataFrame basierend auf einer CSV-Datei. Sie kann eine Vielzahl verschiedener Parameter entgegennehmen, die das Verhalten der Funktion spezifizieren. Im Folgenden gehen wir der Übersicht halber nur auf die wichtigsten und am häufigsten benötigten Argumente ein. Eine ausführliche Auflistung finden Sie in der Pandas-Dokumentation.

Die grundlegende Syntax der Funktion ist einfach und sieht folgendermaßen aus:

import pandas as pd
df = pd.read_csv(filepath_or_buffer, sep=',', header='infer', names=None, index_col=None, usecols=None, dtype=None, ...)

python

Relevante Parameter

Im Folgenden finden Sie eine Übersicht über die wichtigsten Parameter:

Parameter	Bedeutung	Default-Wert
`filepath_or_buffer`	Dies ist ein Python-String (Pfad zur Datei) oder ein Dateipuffer wie eine URL.
`sep`	Hiermit wird das Trennzeichen zwischen den Werten angegeben.	`,`
`header`	Gibt an, welche Zeile als Header verwendet wird.	`infer` (erste Zeile)
`names`	Wenn `header=None` gesetzt ist, können Sie mit `names` eine Python-Liste von Spaltennamen angeben.
`index_col`	Legt fest, welche Spalte als Index verwendet wird.	`None`
`usecols`	Mit diesem Parameter können Sie die Spalten auswählen, die Sie in den DataFrame laden möchten.	`None`
`dtype`	Gibt den Datentyp der Spalten an.	`None`

Schritt-für-Schritt-Anleitung zum Zugriff auf CSV-Dateien

Mithilfe von pandas.read_csv() lassen sich Daten aus CSV-Dateien in nur wenigen Schritten in Python übertragen.

In den Beispielen soll mit einer CSV-Datei nach folgendem Muster gearbeitet werden:

1,Max Mustermann,35,Berlin,50000
2,Anna Müller,29,Hamburg,62000
3,Peter Schmidt,41,München,58000
4,Lisa Meier,33,Köln,49000
5,Tom Becker,28,Frankfurt,52000

Schritt 1: Pandas importieren

In einem ersten Schritt sollten Sie die Pandas-Bibliothek in Ihr Python-Skript importieren.

import pandas as pd

python

Schritt 2: CSV-Datei laden

Nun können Sie Ihre CSV-Datei mit der Python-Pandas-read_csv()-Funktion laden. Hierzu übergeben Sie der Funktion einfach den Dateipfad. Im folgenden Codebeispiel betrachten wir eine Datei namens daten.csv, die im selben Verzeichnis wie das Skript gespeichert ist:

df = pd.read_csv('daten.csv')

python

Durch den Code wird die Datei in einem DataFrame-Objekt df gesichert, mit dem nun weitergearbeitet werden kann. Pandas interpretiert automatisch die erste Zeile als Spaltenüberschriften, wenn nichts anderes angegeben wird.

Schritt 3: CSV-Datei anzeigen

Um sicherzustellen, dass die Datei korrekt geladen wurde, ist es sinnvoll, sich die ersten Zeilen des DataFrames anzusehen. Hierfür kann die Funktion DataFrame.head() genutzt werden. Sie zeigt standardmäßig die ersten fünf Zeilen des DataFrames an. So erhält man einen schnellen Überblick über die Struktur der Daten:

print(df.head())

python

Die Ausgabe sieht wie folgt aus:

0   1  Max Mustermann     35     Berlin   50000
1   2     Anna Müller     29    Hamburg   62000
2   3   Peter Schmidt     41    München   58000
3   4      Lisa Meier     33       Köln   49000
4   5      Tom Becker     28  Frankfurt   52000

Schritt 4: Spaltennamen ändern (optional)

Wenn Ihre CSV-Datei keine Header-Zeile hat, können Sie die Spaltennamen manuell definieren:

df = pd.read_csv('daten.csv', header=None, names=['Spalte1', 'Spalte2', 'Spalte3', 'Spalte4', 'Spalte5'])

python

In diesem Beispiel wurden die Spalten manuell mit Spalte1, Spalte2, Spalte3, Spalte4 und Spalte5 benannt. Der Code liefert als Resultat:

Spalte1            Spalte2  Spalte3     Spalte4  Spalte5
0          1  Max Mustermann         35      Berlin    50000
1          2      Anna Müller         29     Hamburg    62000
2          3    Peter Schmidt         41     München    58000
3          4        Lisa Meier         33         Köln    49000
4          5        Tom Becker         28  Frankfurt    52000

Hinweis

Die als Beispiel genutzte CSV-Datei hatte nicht allzu viele Daten und war somit eher klein. Wenn das allerdings nicht der Fall ist und Sie eine sehr große CSV-Datei haben, sollten Sie die Datei stückweise einlesen, um Speicherprobleme zu vermeiden. Hierfür können Sie den pandas.read_csv()-Parameter chunksize nutzen, der angibt, wie viele Zeilen pro Iteration gelesen werden sollen. Mit einer Python-for-Loop können Sie über die Chunks iterieren.

KI-Wissen für Ihren Erfolg

Unser Newsletter bringt Ihnen die wichtigsten Insights rund um KI – verständlich, praxisnah und auf den Punkt.

Pandas iterrows(): So iterieren Sie über DataFrames

Pandas DataFrame.iterrows() ist eine Möglichkeit, um über die Zeilen eines DataFrames zu iterieren. Sie wird insbesondere dann eingesetzt, wenn eine zeilenweise Verarbeitung erforderlich ist, zum Beipsiel bei der Durchführung von Berechnungen. Erfahren Sie hier, wie Sie mit der…

Python Pandas

Mr. Kosalshutterstock

Pandas: DataFrame Index verstehen

Die Indexierung von Pandas DataFrames ist ein leistungsstarkes Werkzeug, um effizient und effektiv mit Daten zu arbeiten. Mit verschiedenen Methoden können Sie gezielt auf Daten und Teilmengen Ihres DataFrames zugreifen, um sie zu bearbeiten. Wir zeigen Ihnen, was genau der…

Python Pandas

BEST-BACKGROUNDSShutterstock

Datenbereinigung mit Pandas dropna()

Die Pandas-DataFrame.dropna()-Funktion ist ein mächtiges Werkzeug zur Bereinigung von Datensätzen, indem sie fehlende Werte effizient entfernt. Sie bietet Flexibilität durch verschiedene Parameter, wodurch Programmierende spezifische Anforderungen an die Datenreinigung stellen…

Python Pandas

Mr. Kosalshutterstock

Python Pandas any() im Überblick

Die Methode Pandas DataFrame any() ist ein effizientes Werkzeug, um schnell zu prüfen, ob in einer bestimmten Achse eines DataFrames mindestens ein True-Wert vorhanden ist. Sie ist besonders hilfreich bei der Analyse und Validierung von Daten. Wir zeigen Ihnen, wie Sie die…

Python Pandas

ESB Professionalshutterstock

Pandas DataFrame: In Python Tabellen schnell und übersichtlich manipulieren!

Das Pandas-Modul ist eines der mächtigsten Werkzeuge zur Datenmanipulation in Python. Eine der zentralen Datenstrukturen in Pandas ist der DataFrame. Mit DataFrames kann man zweidimensionale, strukturierte Daten effizient und übersichtlich manipulieren. Wir erklären Ihnen anhand…

Python Pandas

UndreyShutterstock

Python Pandas: Die Eigenschaft iloc[]

Bei der Arbeit mit DataFrames in Python Pandas kann es vorkommen, dass nicht alle Zeilen oder Spalten eines DataFrames für die Datenanalyse relevant sind. Die Pandas-DataFrame-Eigenschaft iloc[] ist daher ein nützliches Werkzeug, um die gewünschten Zeile oder Spalten anhand ihrer…

Python Pandas

Pandas read_csv(): So lesen Sie CSV-Dateien in Python ein

Syntax von Python Pandas read_csv()

Relevante Parameter

Schritt-für-Schritt-Anleitung zum Zugriff auf CSV-Dateien

Schritt 1: Pandas im­por­tie­ren

Schritt 2: CSV-Datei laden

Schritt 3: CSV-Datei anzeigen

Schritt 4: Spal­ten­na­men ändern (optional)

Syntax von Python Pandas `read_csv()`

Schritt 1: Pandas importieren

Schritt 4: Spaltennamen ändern (optional)