R substring(): So extrahieren Sie Informationen aus Strings

R substring() eignet sich zur Datenvorbereitung für Analysen, zum Beispiel wenn Sie Textdaten in besser strukturierte Formate umwandeln müssen.

Was genau ist R substring()?

In R ist substring() eine eingebaute Funktion, die Teilzeichenketten aus einem bestehenden String auswählt. Sie ermöglicht, den Start- und Endindex präzise zu definieren, um den gewünschten Teil der Zeichenkette zu isolieren. R substring() findet vielfältige Anwendungen, von der Datenbereinigung bis zur Extraktion spezifischer Informationen aus unstrukturierten Textdaten. Sie können die Methode beispielsweise verwenden, um Postleitzahlen aus Adressen zu bestimmen oder Datumskomponenten aus Zeitstempeln zu extrahieren.

Die substring()-Funktion in R ist flexibel in Situationen, in denen eine feine Kontrolle über die Position und Länge der selektieren Teilzeichenkette erforderlich ist. Außerdem wird die Methode häufig in Datenanalysen und zur Vorbereitung von Textdaten für weiterführende Verarbeitungsschritte eingesetzt, um die Daten zu strukturieren.

Die Syntax der substring()-Funktion in R

Die R substring()-Funktion gibt eine extrahierte Teilzeichenkette zurück. Sie akzeptiert folgende Parameter:

substring(x, first, last)
R
  • x: Dies ist die Zeichenkette, aus der die Teilzeichenkette extrahiert werden soll.
  • first: Hierbei handelt es sich um den Index des ersten Zeichens in dem zu extrahierenden String.
  • last: Das ist der Index des letzten Zeichens in der zu extrahierenden Teilzeichenkette.

Hier ist ein konkretes Beispiel:

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
R

Wir selektieren den Teilstring von Index 1 bis Index 4 in der Zeichenkette "data analysis" und speichern ihn in der Variablen result. Die Ausgabe lautet "data".

Praktische Anwendung von R substring()

Bei der Bearbeitung von Datensätzen müssen Sie häufig bestimmte Teile von Zeichenketten auswählen, manipulieren oder entfernen. Dies können Sie mit der substring()-Funktion in R auf unterschiedliche Weise tun.

Zeichen mit substring() extrahieren

Sie dürfen die Indizes in Variablen speichern und als Parameter an R substring() übergeben.

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
R

Dieses Beispiel demonstriert die Funktion von substring() in R. In der Originalzeichenkette "Data Science" wird ein Teilstring ab der Position 6 bis 12 selektiert. Dabei legen wir die Variablen start_index als den Startindex und end_index als den Endindex für die Extraktion fest. Die Ausgabe des Programms zeigt die extrahierte Teilzeichenkette, die in diesem Fall "Science" ist. Der Endindex-Wert von 12 ist inklusiv, daher ist das Zeichen an der Position 12 in dem Teilstring enthalten.

Strings mit der substring()-Funktion in R manipulieren

Wir erstellen einen Datenrahmen df, der die IDs, das Alter und den Beruf enthält. Die substring()-Funktion verwenden wir, um in der Spalte "ID" an der zweiten Position jeder Zeichenkette ein Leerzeichen einzufügen.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space at the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
R

Hier dient die R-substring()-Funktion dazu, die erste Ziffer jeder Nummer (substring(df$ID, 1, 1) und den Rest der Nummernfolge an der zweiten Position (substring(df$ID, 2)) zu extrahieren. Das Leerzeichen wird dann mit R paste zwischen diesen beiden Teilen eingefügt. Das Ergebnis erscheint in der ID-Spalte des Datenrahmens.

Die Ausgabe zeigt:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher
R
Tipp

Für das Arbeiten mit Strings in R empfehlen wir Ihnen außerdem das Tutorial zu R gsub und sub aus unserem Ratgeber.

Günstige Webhosting-Pakete von IONOS!

Vertrauen Sie auf flexibel skalierbares und zuverlässiges Webhosting inklusive persönlichem Berater mit IONOS!

Kostenlose Domain
SSL Zertifikat
DDoS-Schutz