Unter dem Begriff „Data-Mining“ versteht man die ziel­füh­ren­de Aus­wer­tung großer Da­ten­men­gen, um neue, po­ten­zi­ell nützliche In­for­ma­tio­nen zu gewinnen. Wir erklären den Begriff etwas naher, und erläutern einige zu­ge­hö­ri­ge Ana­ly­se­ver­fah­ren.

Data-Mining im Überblick

Um zu einer Data-Mining-De­fi­ni­ti­on zu gelangen, ist es hilfreich, die Metapher auf­zu­schlüs­seln und den Ana­ly­se­an­satz frei­zu­le­gen. Be­trach­tet man den Output des nahezu all­ge­gen­wär­ti­gen Be­su­chen­den-Trackings im Internet als scheinbar unnützen Datenberg, bietet Data-Mining (wörtlich übersetzt: „Da­ten­schür­fung“) die not­wen­di­gen Werkzeuge, um die ge­sam­mel­ten Daten zu er­schlie­ßen und relevante In­for­ma­tio­nen zutage zu fördern. Anders als im Bergbau kommen dabei sta­tis­ti­sche Methoden zum Einsatz, die es er­mög­li­chen, Trends und Quer­ver­bin­dun­gen zu iden­ti­fi­zie­ren.

Dis­ku­tiert wird Data-Mining in der Regel im Zu­sam­men­hang mit Big Data. Damit sind Da­ten­be­stän­de gemeint, die aufgrund ihres Umfangs manuell nicht mehr zu erfassen sind und daher com­pu­ter­ge­stütz­te Analysen erfordern. Prin­zi­pi­ell lassen sich Data-Mining-Methoden jedoch auf beliebige Da­ten­men­gen anwenden. Er­kennt­nis­se, die durch Data-Mining gewonnen werden, lassen sich in die stra­te­gi­sche Aus­rich­tung des On­lin­ege­schäfts und Marketing-Ent­schei­dun­gen ein­be­zie­hen. Ent­spre­chend viel­fäl­tig sind die An­wen­dungs­ge­bie­te.

An­wen­dungs­ge­bie­te des Data-Minings

Data-Mining bietet die Mög­lich­keit, den E-Commerce auf wis­sen­schaft­li­cher Basis zu op­ti­mie­ren. Dabei bilden große Da­ten­be­stän­de, die im On­lin­ege­schäft anfallen, die Grundlage für Er­klä­run­gen und Prognosen. Sta­tis­tisch auf­be­rei­tet und über­sicht­lich vi­sua­li­siert erlauben sie Webshop-Be­trei­ben­den, Faktoren für ein er­folg­rei­ches On­lin­ege­schäft zu iden­ti­fi­zie­ren und On­line­shop-Marketing-Stra­te­gien an Modellen durch­zu­rech­nen. Dabei kommt Data-Mining zum Einsatz, um

  • Märkte zu seg­men­tie­ren,
  • Wa­ren­kör­be zu ana­ly­sie­ren,
  • Käu­fer­pro­fi­le zu erstellen,
  • Pro­dukt­prei­se zu kal­ku­lie­ren,
  • Prognosen zu Ver­trags­lauf­zei­ten auf­zu­stel­len,
  • die Nachfrage zu ana­ly­sie­ren und
  • Fehler in Ver­kaufs­pro­zes­sen zu iden­ti­fi­zie­ren.
KI-Lösungen
Mehr Digital-Power dank Künst­li­cher In­tel­li­genz
  • In Sekunden zur Online-Präsenz
  • Mehr Wachstum mit KI-Marketing
  • Zeit und Res­sour­cen sparen

Wie funk­tio­niert Data-Mining?

Data-Mining wird als ein Teil­schritt der Knowledge Discovery in Data (KDD, deutsch: „Wis­sens­ent­de­ckung in Daten“) be­trach­tet, die folgende Schritte umfasst:

  • Ziele de­fi­nie­ren: Zuerst müssen konkrete Fragen fest­ge­legt werden, die durch die Da­ten­ana­ly­se be­ant­wor­tet werden sollen. So ist es für da­ten­wis­sen­schaft­li­che Fach­kräf­te leichter, relevante Daten und an­ge­mes­se­ne Aus­wer­tungs­me­tho­den zu erkennen.
  • Vor­ver­ar­bei­tung der Daten: Ent­schei­dend für die Qualität der durch Data-Mining ge­won­ne­nen In­for­ma­tio­nen ist die Be­schaf­fen­heit der Da­ten­grund­la­ge. Relevante Daten sollen also vor der Analyse bereinigt werden, um Duplikate, Ausreißer und andere Ver­zer­run­gen zu entfernen. Eventuell müssen die be­rei­nig­ten Daten auch in das von dem Ana­ly­se­ver­fah­ren benötigte Format gebracht werden.
  • Da­ten­ana­ly­se: Nun erfolgt die ei­gent­li­che ma­the­ma­ti­sche Da­ten­ana­ly­se. Die hier an­zu­wen­den­den Ana­ly­se­ver­fah­ren hängen stark von den gewählten Zielen sowie die Ei­gen­schaf­ten der Daten ab. Hier können sowohl klas­si­sche Al­go­rith­men zur Da­ten­ana­ly­se als auch neuere, auf Neural Networks ba­sie­ren­de Deep-Learning-Al­go­rith­men zum Einsatz kommen.
  • In­ter­pre­ta­ti­on der Er­geb­nis­se: Zunächst müssen die aus der Analyse ent­ste­hen­den Er­geb­nis­se aus­ge­wer­tet werden. Sind die Er­geb­nis­se ver­ständ­lich und auf­schluss­ge­bend, können daraus eventuell neue Zu­sam­men­hän­ge iden­ti­fi­ziert und Er­kennt­nis­se gewonnen werden, die wiederum künftige Ge­schäfts­stra­te­gien be­ein­flus­sen können.

Data-Mining-Methoden

Um un­ter­neh­mens­re­le­van­te In­for­ma­tio­nen aus großen Da­ten­be­stän­den ex­tra­hie­ren zu können, haben sich ver­schie­de­ne Methoden etabliert, die auf der Iden­ti­fi­zie­rung be­deut­sa­mer Zu­sam­men­hän­ge, Muster und Trends basieren und sich sta­tis­ti­scher Verfahren bedienen.

  • Ausreißer-Erkennung (Outlier Detection): Als Ausreißer werden extreme Messwerte be­zeich­net, die sich von der Ge­samt­da­ten­men­ge abheben, da sie vom ge­ne­rel­len Trend einer Messreihe abweichen. Im Data-Mining kommt die Ausreißer-Erkennung zum Einsatz, um un­ty­pi­sche Da­ten­sät­ze zu iden­ti­fi­zie­ren. In der Praxis lässt sich diese Data-Mining-Methode nutzen, um Kre­dit­kar­ten­be­trug durch auf­fäl­li­ge Trans­ak­tio­nen zu entlarven.
  • Cluster-Analyse: Cluster nennt man eine Grup­pie­rung von Objekten, die auf Ähn­lich­keits­be­zie­hun­gen der Grup­pen­mit­glie­der beruht. Ziel dieses Ana­ly­se­ver­fah­rens ist die Seg­men­tie­rung un­struk­tu­rier­ter Daten. Dazu werden Al­go­rith­men wie K-Nearest-Neighbor (KNN) ein­ge­setzt, die große Da­ten­be­stän­de nach Ähn­lich­keits­struk­tu­ren durch­su­chen, um neue Cluster zu iden­ti­fi­zie­ren. Lässt sich ein Datensatz keinem Cluster zuordnen, kann dieser als Ausreißer in­ter­pre­tiert werden. Ein klas­si­scher An­wen­dungs­fall für die Cluster-Analyse ist die Iden­ti­fi­zie­rung von Be­su­cher­grup­pen.
  • Klas­si­fi­ka­ti­on: Während bei der Cluster-Analyse die Iden­ti­fi­ka­ti­on neuer Gruppen im Vor­der­grund steht, kommen bei der Klas­si­fi­ka­ti­on vor­de­fi­nier­te Klassen zum Einsatz. Die Zuteilung erfolgt anhand über­ein­stim­men­der Merkmale einzelner Daten aus dem Ge­samt­be­stand. Eine gängige Methode zur au­to­ma­ti­schen Klas­si­fi­ka­ti­on von Daten stellt der Ent­schei­dungs­baum (decision tree) dar. Bei jedem Knoten wird ein Merkmal des Objekts abgefragt, dessen Vorhanden- oder Nicht­vor­han­den­sein über die Wahl des folgenden Knotens ent­schei­det. Im E-Commerce lässt sich dieses Verfahren anwenden, um Kunden in ver­schie­de­ne Segmente ein­zu­tei­len.
  • As­so­zia­ti­ons­ana­ly­se: Eine As­so­zia­ti­ons­ana­ly­se zielt auf die Iden­ti­fi­zie­rung von Zu­sam­men­hän­gen im Da­ten­be­stand ab, die als Schluss­re­geln for­mu­lier­bar sind. Im E-Commerce lässt sich diese Data-Mining-Methode einsetzen, um Kor­re­la­tio­nen einzelner Produkte in typischen Wa­ren­kör­ben nach dem Muster „Wenn Produkt A gekauft wird, dann wird auch Produkt B gekauft“ zu iden­ti­fi­zie­ren.
  • Re­gres­si­ons­ana­ly­se: Mithilfe von Re­gres­si­ons­ana­ly­sen werden im Rahmen des Data-Minings Modelle erstellt, die eine abhängige Variable durch ver­schie­de­ne un­ab­hän­gi­ge Variablen erklären sollen. In der Praxis lässt sich bei­spiels­wei­se eine Prognose für den Absatz eines Produkts erstellen, indem man den Pro­dukt­preis und das durch­schnitt­li­che Kun­den­ein­kom­men in einem Re­gres­si­ons­mo­dell in Beziehung setzt.

Grenzen des Data-Minings

Beim Data-Mining kommen sta­tis­ti­sche Verfahren zum Einsatz, die eine grund­sätz­lich objektive Analyse des ver­füg­ba­ren Da­ten­be­stands er­mög­li­chen. Die eher sub­jek­ti­ve Auswahl des Ana­ly­se­ver­fah­rens sowie ver­schie­de­ner Al­go­rith­men und Parameter auf Grundlage gewisser Ziel­vor­stel­lun­gen kann jedoch zu einer – mög­li­cher­wei­se er­wünsch­ten – Ver­fäl­schung der Er­geb­nis­se führen. Umgehen lassen sich solche Effekte durch die Aus­la­ge­rung von Data-Mining-Prozessen an externe Dienst­leis­ter.

Zu guter Letzt ist zu beachten, dass Data-Mining lediglich Er­geb­nis­se in Form von Mustern und Quer­ver­bin­dun­gen liefert. Antworten lassen sich erst gewinnen, wenn die Ana­ly­se­er­geb­nis­se hin­sicht­lich vor­her­ge­hen­der Fra­ge­stel­lun­gen und Ziel­set­zun­gen in­ter­pre­tiert werden.

Zum Hauptmenü