Um zu einer Data-Mining-Definition zu gelangen, ist es hilfreich, die Metapher aufzuschlüsseln und den Analyseansatz freizulegen. Betrachtet man den Output des nahezu allgegenwärtigen Besucher-Trackings im Internet als scheinbar unnützen Datenberg, bietet Data-Mining (wörtlich übersetzt: „Datenschürfung“) die notwendigen Werkzeuge, um die gesammelten Daten zu erschließen und relevante Informationen zutage zu fördern. Anders als im Bergbau kommen dabei statistische Methoden zum Einsatz, die es ermöglichen, Trends und Querverbindungen zu identifizieren.
Diskutiert wird Data-Mining in der Regel im Zusammenhang mit Big Data. Damit sind Datenbestände gemeint, die aufgrund ihres Umfangs manuell nicht mehr zu erfassen sind und daher computergestützte Analysen erfordern. Prinzipiell lassen sich Data-Mining-Methoden jedoch auf beliebige Datenmengen anwenden.
Data-Mining wird dabei als ein Teilschritt der Knowledge Discovery in Databases (KDD, deutsch: „Wissensentdeckung in Datenbanken“) betrachtet, die folgende Prozesse umfasst:
- Auswahl des Datenbestands
- Vorverarbeitung mit dem Ziel der Datenbereinigung
- Transformation in die für das Analyseverfahren benötigte Form
- Analyseprozess mittels mathematischer Verfahren (Data-Mining)
- Interpretation der Analyseergebnisse
Erkenntnisse, die durch KDD gewonnen werden, lassen sich in die strategische Ausrichtung des Onlinegeschäfts und Marketing-Entscheidungen einbeziehen. Entsprechend vielfältig sind die Anwendungsgebiete.