Data-Mining: So lassen sich Datenberge erschließen

Daten spielen eine zentrale Rolle im E-Commerce. In der Absicht, Verkaufsprozesse zu optimieren, üben sich diverse Onlineshops als beflissene Datensammler. Mithilfe von Analysetools erfassen sie Zahlen und Werte zum Kundenverhalten, zu Warenkörben und Produkten. Doch ein Datenberg allein bietet noch keinen Mehrwert. Wer Verkaufsmethoden optimieren und Absätze steigern möchte, muss die Informationen zielführend auswerten. Hier kommt ein Analyseansatz ins Spiel, der als „Data-Mining“ bezeichnet wird.

Was ist Data-Mining?

Um zu einer Data-Mining-Definition zu gelangen, ist es hilfreich, die Metapher aufzuschlüsseln und den Analyseansatz freizulegen. Betrachtet man den Output des nahezu allgegenwärtigen Besucher-Trackings im Internet als scheinbar unnützen Datenberg, bietet Data-Mining (wörtlich übersetzt: „Datenschürfung“) die notwendigen Werkzeuge, um die gesammelten Daten zu erschließen und relevante Informationen zutage zu fördern. Anders als im Bergbau kommen dabei statistische Methoden zum Einsatz, die es ermöglichen, Trends und Querverbindungen zu identifizieren.

Diskutiert wird Data-Mining in der Regel im Zusammenhang mit Big Data. Damit sind Datenbestände gemeint, die aufgrund ihres Umfangs manuell nicht mehr zu erfassen sind und daher computergestützte Analysen erfordern. Prinzipiell lassen sich Data-Mining-Methoden jedoch auf beliebige Datenmengen anwenden.

Data-Mining wird dabei als ein Teilschritt der Knowledge Discovery in Databases (KDD, deutsch: „Wissensentdeckung in Datenbanken“) betrachtet, die folgende Prozesse umfasst:

  • Auswahl des Datenbestands
  • Vorverarbeitung mit dem Ziel der Datenbereinigung
  • Transformation in die für das Analyseverfahren benötigte Form
  • Analyseprozess mittels mathematischer Verfahren (Data-Mining)
  • Interpretation der Analyseergebnisse

Erkenntnisse, die durch KDD gewonnen werden, lassen sich in die strategische Ausrichtung des Onlinegeschäfts und Marketing-Entscheidungen einbeziehen. Entsprechend vielfältig sind die Anwendungsgebiete.

Anwendungsgebiete des Data-Minings

Data-Mining bietet die Möglichkeit, den E-Commerce auf wissenschaftlicher Basis zu optimieren. Dabei bilden große Datenbestände, die im Onlinegeschäft anfallen, die Grundlage für Erklärungen und Prognosen. Statistisch aufbereitet und übersichtlich visualisiert erlauben sie Webshop-Betreibern, Faktoren für ein erfolgreiches Onlinegeschäft zu identifizieren und Strategien an Modellen durchzurechnen. Dabei kommt Data-Mining zum Einsatz, um

  • Märkte zu segmentieren,
  • Warenkörbe zu analysieren,
  • Käuferprofile zu erstellen,
  • Produktpreise zu kalkulieren,
  • Prognosen zu Vertragslaufzeiten aufzustellen,
  • die Nachfrage zu analysieren und
  • Fehler in Verkaufsprozessen zu identifizieren.

Data-Mining-Methoden

Um unternehmensrelevante Informationen aus großen Datenbeständen extrahieren zu können, haben sich verschiedene Methoden etabliert, die auf der Identifizierung bedeutsamer Zusammenhänge, Muster und Trends basieren und sich statistischer Verfahren bedienen.

  • Ausreißer-Erkennung (Outlier Detection): Als Ausreißer werden extreme Messwerte bezeichnet, die sich von der Gesamtdatenmenge abheben, da sie vom generellen Trend einer Messreihe abweichen. Im Data-Mining kommt die Ausreißer-Erkennung zum Einsatz, um untypische Datensätze zu identifizieren. In der Praxis lässt sich diese Data-Mining-Methode nutzen, um Kreditkartenbetrug durch auffällige Transaktionen zu entlarven.
  • Cluster-Analyse: Cluster nennt man eine Gruppierung von Objekten, die auf Ähnlichkeitsbeziehungen der Gruppenmitglieder beruht. Ziel dieses Analyseverfahrens ist die Segmentierung unstrukturierter Daten. Dazu werden Algorithmen eingesetzt, die große Datenbestände nach Ähnlichkeitsstrukturen durchsuchen, um neue Cluster zu identifizieren. Im Gegensatz zur Klassifikation zielt die Clusteranalyse darauf ab, neue Gruppierungsmöglichkeiten zu entdecken. Lässt sich ein Datensatz keinem Cluster zuordnen, kann dieser als Ausreißer interpretiert werden. Ein klassischer Anwendungsfall für die Cluster-Analyse ist die Identifizierung von Besuchergruppen.
  • Klassifikation: Während bei der Cluster-Analyse die Identifikation neuer Gruppen im Vordergrund steht, kommen bei der Klassifikation vordefinierte Klassen zum Einsatz. Die Zuteilung erfolgt anhand übereinstimmender Merkmale einzelner Daten aus dem Gesamtbestand. Eine gängige Methode zur automatischen Klassifikation von Daten stellt der Entscheidungsbaum (decision tree) dar. Bei jedem Knoten wird ein Merkmal des Objekts abgefragt, dessen Vorhanden- oder Nichtvorhandensein über die Wahl des folgenden Knotens entscheidet. Im E-Commerce lässt sich dieses Verfahren anwenden, um Kunden in verschiedene Segmente einzuteilen.
  • Assoziationsanalyse: Eine Assoziationsanalyse zielt auf die Identifizierung von Zusammenhängen im Datenbestand ab, die als Schlussregeln formulierbar sind. Im E-Commerce lässt sich diese Data-Mining-Methode einsetzen, um Korrelationen einzelner Produkte in typischen Warenkörben nach dem Muster „Wenn Produkt A gekauft wird, dann wird auch Produkt B gekauft“ zu identifizieren.
  • Regressionsanalyse: Mithilfe von Regressionsanalysen werden im Rahmen des Data-Minings Modelle erstellt, die eine abhängige Variable durch verschiedene unabhängige Variablen erklären sollen. In der Praxis lässt sich beispielsweise eine Prognose für den Absatz eines Produkts erstellen, indem man den Produktpreis und das durchschnittliche Kundeneinkommen in einem Regressionsmodell in Beziehung setzt.

Grenzen des Data-Minings

Beim Data-Mining kommen statistische Verfahren zum Einsatz, die eine grundsätzlich objektive Analyse des verfügbaren Datenbestands ermöglichen. Die eher subjektive Auswahl des Analyseverfahrens sowie verschiedener Algorithmen und Parameter auf Grundlage gewisser Zielvorstellungen kann jedoch zu einer – möglicherweise erwünschten – Verfälschung der Ergebnisse führen. Umgehen lassen sich solche Effekte durch die Auslagerung von Data-Mining-Prozessen an externe Dienstleister.

Entscheidend für die Qualität der durch Data-Mining gewonnenen Informationen ist zudem die Beschaffenheit der Datengrundlage. Repräsentative Ergebnisse lassen sich in der Regel nur aus repräsentativen Daten gewinnen. Data-Mining setzt daher in den meisten Fällen eine Vorverarbeitung des Datenbestands voraus, bei der fehlende Werte und Verzerrungen bereinigt werden.

Zu guter Letzt ist zu beachten, dass Data-Mining lediglich Ergebnisse in Form von Mustern und Querverbindungen liefert. Antworten lassen sich erst gewinnen, wenn die Analyseergebnisse hinsichtlich vorhergehender Fragestellungen und Zielsetzungen interpretiert werden.