Was ist Data-Mining?

Inhaltsverzeichnis

Unter dem Begriff „Data-Mining“ versteht man die zielführende Auswertung großer Datenmengen, um neue, potenziell nützliche Informationen zu gewinnen. Wir erklären den Begriff etwas naher, und erläutern einige zugehörige Analyseverfahren.

Data-Mining im Überblick

Um zu einer Data-Mining-Definition zu gelangen, ist es hilfreich, die Metapher aufzuschlüsseln und den Analyseansatz freizulegen. Betrachtet man den Output des nahezu allgegenwärtigen Besuchenden-Trackings im Internet als scheinbar unnützen Datenberg, bietet Data-Mining (wörtlich übersetzt: „Datenschürfung“) die notwendigen Werkzeuge, um die gesammelten Daten zu erschließen und relevante Informationen zutage zu fördern. Anders als im Bergbau kommen dabei statistische Methoden zum Einsatz, die es ermöglichen, Trends und Querverbindungen zu identifizieren.

Diskutiert wird Data-Mining in der Regel im Zusammenhang mit Big Data. Damit sind Datenbestände gemeint, die aufgrund ihres Umfangs manuell nicht mehr zu erfassen sind und daher computergestützte Analysen erfordern. Prinzipiell lassen sich Data-Mining-Methoden jedoch auf beliebige Datenmengen anwenden. Erkenntnisse, die durch Data-Mining gewonnen werden, lassen sich in die strategische Ausrichtung des Onlinegeschäfts und Marketing-Entscheidungen einbeziehen. Entsprechend vielfältig sind die Anwendungsgebiete.

Anwendungsgebiete des Data-Minings

Data-Mining bietet die Möglichkeit, den E-Commerce auf wissenschaftlicher Basis zu optimieren. Dabei bilden große Datenbestände, die im Onlinegeschäft anfallen, die Grundlage für Erklärungen und Prognosen. Statistisch aufbereitet und übersichtlich visualisiert erlauben sie Webshop-Betreibenden, Faktoren für ein erfolgreiches Onlinegeschäft zu identifizieren und Onlineshop-Marketing-Strategien an Modellen durchzurechnen. Dabei kommt Data-Mining zum Einsatz, um

Märkte zu segmentieren,
Warenkörbe zu analysieren,
Käuferprofile zu erstellen,
Produktpreise zu kalkulieren,
Prognosen zu Vertragslaufzeiten aufzustellen,
die Nachfrage zu analysieren und
Fehler in Verkaufsprozessen zu identifizieren.

KI-Lösungen

Mehr Digital-Power dank Künstlicher Intelligenz

In Sekunden zur Online-Präsenz
Mehr Wachstum mit KI-Marketing
Zeit und Ressourcen sparen

Wie funktioniert Data-Mining?

Data-Mining wird als ein Teilschritt der Knowledge Discovery in Data (KDD, deutsch: „Wissensentdeckung in Daten“) betrachtet, die folgende Schritte umfasst:

Ziele definieren: Zuerst müssen konkrete Fragen festgelegt werden, die durch die Datenanalyse beantwortet werden sollen. So ist es für datenwissenschaftliche Fachkräfte leichter, relevante Daten und angemessene Auswertungsmethoden zu erkennen.
Vorverarbeitung der Daten: Entscheidend für die Qualität der durch Data-Mining gewonnenen Informationen ist die Beschaffenheit der Datengrundlage. Relevante Daten sollen also vor der Analyse bereinigt werden, um Duplikate, Ausreißer und andere Verzerrungen zu entfernen. Eventuell müssen die bereinigten Daten auch in das von dem Analyseverfahren benötigte Format gebracht werden.
Datenanalyse: Nun erfolgt die eigentliche mathematische Datenanalyse. Die hier anzuwendenden Analyseverfahren hängen stark von den gewählten Zielen sowie die Eigenschaften der Daten ab. Hier können sowohl klassische Algorithmen zur Datenanalyse als auch neuere, auf Neural Networks basierende Deep-Learning-Algorithmen zum Einsatz kommen.
Interpretation der Ergebnisse: Zunächst müssen die aus der Analyse entstehenden Ergebnisse ausgewertet werden. Sind die Ergebnisse verständlich und aufschlussgebend, können daraus eventuell neue Zusammenhänge identifiziert und Erkenntnisse gewonnen werden, die wiederum künftige Geschäftsstrategien beeinflussen können.

Data-Mining-Methoden

Um unternehmensrelevante Informationen aus großen Datenbeständen extrahieren zu können, haben sich verschiedene Methoden etabliert, die auf der Identifizierung bedeutsamer Zusammenhänge, Muster und Trends basieren und sich statistischer Verfahren bedienen.

Ausreißer-Erkennung (Outlier Detection): Als Ausreißer werden extreme Messwerte bezeichnet, die sich von der Gesamtdatenmenge abheben, da sie vom generellen Trend einer Messreihe abweichen. Im Data-Mining kommt die Ausreißer-Erkennung zum Einsatz, um untypische Datensätze zu identifizieren. In der Praxis lässt sich diese Data-Mining-Methode nutzen, um Kreditkartenbetrug durch auffällige Transaktionen zu entlarven.
Cluster-Analyse: Cluster nennt man eine Gruppierung von Objekten, die auf Ähnlichkeitsbeziehungen der Gruppenmitglieder beruht. Ziel dieses Analyseverfahrens ist die Segmentierung unstrukturierter Daten. Dazu werden Algorithmen wie K-Nearest-Neighbor (KNN) eingesetzt, die große Datenbestände nach Ähnlichkeitsstrukturen durchsuchen, um neue Cluster zu identifizieren. Lässt sich ein Datensatz keinem Cluster zuordnen, kann dieser als Ausreißer interpretiert werden. Ein klassischer Anwendungsfall für die Cluster-Analyse ist die Identifizierung von Besuchergruppen.
Klassifikation: Während bei der Cluster-Analyse die Identifikation neuer Gruppen im Vordergrund steht, kommen bei der Klassifikation vordefinierte Klassen zum Einsatz. Die Zuteilung erfolgt anhand übereinstimmender Merkmale einzelner Daten aus dem Gesamtbestand. Eine gängige Methode zur automatischen Klassifikation von Daten stellt der Entscheidungsbaum (decision tree) dar. Bei jedem Knoten wird ein Merkmal des Objekts abgefragt, dessen Vorhanden- oder Nichtvorhandensein über die Wahl des folgenden Knotens entscheidet. Im E-Commerce lässt sich dieses Verfahren anwenden, um Kunden in verschiedene Segmente einzuteilen.
Assoziationsanalyse: Eine Assoziationsanalyse zielt auf die Identifizierung von Zusammenhängen im Datenbestand ab, die als Schlussregeln formulierbar sind. Im E-Commerce lässt sich diese Data-Mining-Methode einsetzen, um Korrelationen einzelner Produkte in typischen Warenkörben nach dem Muster „Wenn Produkt A gekauft wird, dann wird auch Produkt B gekauft“ zu identifizieren.
Regressionsanalyse: Mithilfe von Regressionsanalysen werden im Rahmen des Data-Minings Modelle erstellt, die eine abhängige Variable durch verschiedene unabhängige Variablen erklären sollen. In der Praxis lässt sich beispielsweise eine Prognose für den Absatz eines Produkts erstellen, indem man den Produktpreis und das durchschnittliche Kundeneinkommen in einem Regressionsmodell in Beziehung setzt.

Grenzen des Data-Minings

Beim Data-Mining kommen statistische Verfahren zum Einsatz, die eine grundsätzlich objektive Analyse des verfügbaren Datenbestands ermöglichen. Die eher subjektive Auswahl des Analyseverfahrens sowie verschiedener Algorithmen und Parameter auf Grundlage gewisser Zielvorstellungen kann jedoch zu einer – möglicherweise erwünschten – Verfälschung der Ergebnisse führen. Umgehen lassen sich solche Effekte durch die Auslagerung von Data-Mining-Prozessen an externe Dienstleister.

Zu guter Letzt ist zu beachten, dass Data-Mining lediglich Ergebnisse in Form von Mustern und Querverbindungen liefert. Antworten lassen sich erst gewinnen, wenn die Analyseergebnisse hinsichtlich vorhergehender Fragestellungen und Zielsetzungen interpretiert werden.

KI-Wissen für Ihren Erfolg

Unser Newsletter bringt Ihnen die wichtigsten Insights rund um KI – verständlich, praxisnah und auf den Punkt.

Big Data: Definition und Beispiele

Online kaufen wir ein, buchen unsere Urlaubsreise und suchen nach Geschenkideen, ohne darüber nachzudenken, dass wir mit jeder Suchanfrage und jeder Eingabe unserer Mailadresse eine Spur hinterlassen. Fleißige Datenkraken sammeln diese Informationen – was entsteht, ist Big Data:…

Datenschutz
Datenbank
Online-Shop
E-Commerce
Big Data

kentohshutterstock

Data-Driven Marketing: Von Big Data zu Smart Data

Im Internet hinterlassen wir überall unsere digitalen Fußabdrücke: wenn wir surfen, uns Angebote anschauen oder nach Produkten suchen. Das Data-Driven Marketing ermöglicht mithilfe von Analysen und Algorithmen die sinnvolle Verknüpfung dieser Daten. Marketer können diese Daten…

Google Analytics
Big Data
Datenanalyse

JirsakShutterstock

Data-Mining-Tools für eine stärkere Datenanalyse

Im digitalen Zeitalter wachsen die Daten auch bei kleineren und mittelständischen Unternehmen zu teils unüberschaubaren Mengen an. Um den Datensätzen dennoch die gewünschten Informationen zu entlocken, verwendet man Data-Mining-Tools. Diese extrahieren wiederkehrende Muster aus…

Datenbank
Big Data
Datenanalyse

Ranjit Karmakarshutterstock

Google Data Studio: Setzen Sie ihre Daten in Szene

Datenanalyse ist für die meisten eine rein theoretische Angelegenheit. Doch um dem Kunden die Erkenntnisse näherzubringen, müssen die Datensätze visuell aufbereitet werden. Mit Google Data Studio können Sie Daten aus den verschiedensten Quellen zu einem anschaulichen Bericht…

Online-Shop
E-Commerce
Big Data
Datenanalyse

faithieShutterstock

Was ist Sentiment-Analyse?

Der Begriff Sentiment-Analyse nutzt eine Art maschinelle Stimmungserkennung. Die Methode ermittelt durch Auswertung von Texten, welche Haltung die Menschen gegenüber einem bestimmten Produkt oder gegenüber einer bestimmten Marke einnehmen. Mit den so gewonnenen Erkenntnissen…

KI
Ratgeber

Was ist Data-Mining?

Data-Mining im Überblick

An­wen­dungs­ge­bie­te des Data-Minings

Wie funk­tio­niert Data-Mining?

Data-Mining-Methoden

Grenzen des Data-Minings

Anwendungsgebiete des Data-Minings

Wie funktioniert Data-Mining?