R substring() eignet sich zur Da­ten­vor­be­rei­tung für Analysen, zum Beispiel wenn Sie Textdaten in besser struk­tu­rier­te Formate umwandeln müssen.

Was genau ist R substring()?

In R ist substring() eine ein­ge­bau­te Funktion, die Teil­zei­chen­ket­ten aus einem be­stehen­den String auswählt. Sie er­mög­licht, den Start- und Endindex präzise zu de­fi­nie­ren, um den ge­wünsch­ten Teil der Zei­chen­ket­te zu isolieren. R substring() findet viel­fäl­ti­ge An­wen­dun­gen, von der Da­ten­be­rei­ni­gung bis zur Ex­trak­ti­on spe­zi­fi­scher In­for­ma­tio­nen aus un­struk­tu­rier­ten Textdaten. Sie können die Methode bei­spiels­wei­se verwenden, um Post­leit­zah­len aus Adressen zu bestimmen oder Da­tums­kom­po­nen­ten aus Zeit­stem­peln zu ex­tra­hie­ren.

Die substring()-Funktion in R ist flexibel in Si­tua­tio­nen, in denen eine feine Kontrolle über die Position und Länge der se­lek­tie­ren Teil­zei­chen­ket­te er­for­der­lich ist. Außerdem wird die Methode häufig in Da­ten­ana­ly­sen und zur Vor­be­rei­tung von Textdaten für wei­ter­füh­ren­de Ver­ar­bei­tungs­schrit­te ein­ge­setzt, um die Daten zu struk­tu­rie­ren.

Die Syntax der substring()-Funktion in R

Die R substring()-Funktion gibt eine ex­tra­hier­te Teil­zei­chen­ket­te zurück. Sie ak­zep­tiert folgende Parameter:

substring(x, first, last)
R
  • x: Dies ist die Zei­chen­ket­te, aus der die Teil­zei­chen­ket­te ex­tra­hiert werden soll.
  • first: Hierbei handelt es sich um den Index des ersten Zeichens in dem zu ex­tra­hie­ren­den String.
  • last: Das ist der Index des letzten Zeichens in der zu ex­tra­hie­ren­den Teil­zei­chen­ket­te.

Hier ist ein konkretes Beispiel:

original_string <- "data analysis"
result <- substring(original_string, 1, 4)
print(result)
# Output: data
R

Wir se­lek­tie­ren den Teil­string von Index 1 bis Index 4 in der Zei­chen­ket­te "data analysis" und speichern ihn in der Variablen result. Die Ausgabe lautet "data".

Prak­ti­sche Anwendung von R substring()

Bei der Be­ar­bei­tung von Da­ten­sät­zen müssen Sie häufig bestimmte Teile von Zei­chen­ket­ten auswählen, ma­ni­pu­lie­ren oder entfernen. Dies können Sie mit der substring()-Funktion in R auf un­ter­schied­li­che Weise tun.

Zeichen mit substring() ex­tra­hie­ren

Sie dürfen die Indizes in Variablen speichern und als Parameter an R substring() übergeben.

# Original string
original_string <- "Data Science"
# Indices for extraction
start_index <- 6
end_index <- 12
# Using substring() for extraction
extracted_substring <- substring(original_string, start_index, end_index)
print(extracted_substring)
# Output: Science
R

Dieses Beispiel de­mons­triert die Funktion von substring() in R. In der Ori­gi­nal­zei­chen­ket­te "Data Science" wird ein Teil­string ab der Position 6 bis 12 se­lek­tiert. Dabei legen wir die Variablen start_index als den Start­in­dex und end_index als den Endindex für die Ex­trak­ti­on fest. Die Ausgabe des Programms zeigt die ex­tra­hier­te Teil­zei­chen­ket­te, die in diesem Fall "Science" ist. Der Endindex-Wert von 12 ist inklusiv, daher ist das Zeichen an der Position 12 in dem Teil­string enthalten.

Strings mit der substring()-Funktion in R ma­ni­pu­lie­ren

Wir erstellen einen Da­ten­rah­men df, der die IDs, das Alter und den Beruf enthält. Die substring()-Funktion verwenden wir, um in der Spalte "ID" an der zweiten Position jeder Zei­chen­ket­te ein Leer­zei­chen ein­zu­fü­gen.

# Creating a sample data frame
df <- data.frame(
    ID = c("01235", "02345", "04531"),
    Age = c(25, 30, 22),
    Occupation = c("Engineer", "Doctor", "Teacher")
)
# Inserting a space at the second position in the "ID" column
df$ID <- paste(substring(df$ID, 1, 1), " ", substring(df$ID, 2))
# Displaying the modified data frame
print("Modified Data Frame:")
print(df)
R

Hier dient die R-substring()-Funktion dazu, die erste Ziffer jeder Nummer (substring(df$ID, 1, 1) und den Rest der Num­mern­fol­ge an der zweiten Position (substring(df$ID, 2)) zu ex­tra­hie­ren. Das Leer­zei­chen wird dann mit R paste zwischen diesen beiden Teilen eingefügt. Das Ergebnis erscheint in der ID-Spalte des Da­ten­rah­mens.

Die Ausgabe zeigt:

Modified Data Frame:
    ID           Age  Occupation
1  0 1235  25     Engineer
2  0 2345  30     Doctor
3  0 4531  22     Teacher
R
Tipp

Für das Arbeiten mit Strings in R empfehlen wir Ihnen außerdem das Tutorial zu R gsub und sub aus unserem Ratgeber.

Web­hos­ting
Das beste Web­hos­ting zum Spit­zen­preis
  • 3x schneller und 60 % günstiger
  • Maximale Ver­füg­bar­keit mit > 99.99 %
  • Nur bei IONOS: Bis zu 500 GB Spei­cher­platz inklusive
Zum Hauptmenü