Ent­schei­dungs­un­ter­stüt­zen­de Systeme haben in der Ge­schäfts­welt eine lange Tradition. Bereits seit den 60er-Jahren nutzen Un­ter­neh­men Ana­ly­se­me­tho­den, um dis­po­si­ti­ve Daten zu gewinnen. Ziel ist es, dem Ma­nage­ment mit da­ten­ge­stütz­ten Berichten, Modellen und Prognosen bei der stra­te­gi­schen Aus­rich­tung der Ge­schäfts­pro­zes­se unter die Arme zu greifen.

Ana­ly­ti­sche In­for­ma­ti­ons­sys­te­me, die ent­spre­chen­de Funk­tio­na­li­tä­ten zur Verfügung stellen, umfassen Konzepte wie MIS (Ma­nage­ment In­for­ma­ti­on Systems), DSS (Decision Support Systems) oder EIS (Executive In­for­ma­ti­on Systems), die sich nur schwer von­ein­an­der abgrenzen lassen und seit den 90er-Jahren in der be­trieb­li­chen Praxis sowie bei der Ver­mark­tung ent­spre­chen­der Produkte unter dem Sam­mel­be­griff Business In­tel­li­gence (BI) zu­sam­men­ge­fasst werden.

Fakt

Bei Business In­tel­li­gence (BI) handelt es sich um einen Sam­mel­be­griff für die IT-gestützte Auf­be­rei­tung und Analyse von Un­ter­neh­mens­roh­da­ten. BI soll Wissen ge­ne­rie­ren, das Ent­schei­dungs­trä­gern als Grundlage für die stra­te­gi­sche Aus­rich­tung des Un­ter­neh­mens dient.

Die Da­ten­ba­sis ent­schei­dungs­un­ter­stüt­zen­der Systeme im Rahmen der BI wird heute in der Regel von einem zentralen Da­ten­la­ger, dem so­ge­nann­ten Data-Warehouse, zur Verfügung gestellt. Wir führen Sie in die Grund­la­gen des Data-Warehousings ein, zeichnen die Re­fe­renz­ar­chi­tek­tur eines solchen In­for­ma­ti­ons­sys­tems nach und stellen eta­blier­te Anbieter kom­mer­zi­el­ler DWH-Lösungen ebenso vor wie kos­ten­lo­se Open-Source-Al­ter­na­ti­ven. 

Was ist ein Data-Warehouse?

Ein Data-Warehouse (DWH) ist gemäß De­fi­ni­ti­on ein von ope­ra­ti­ven Da­ten­ver­ar­bei­tungs­sys­te­men se­pa­rier­tes Da­ten­bank­sys­tem, in dem Daten ver­schie­de­ner, mitunter sehr he­te­ro­ge­ner Quellen zu­sam­men­ge­führt, ver­dich­tet und lang­fris­tig ar­chi­viert werden. Zahl­rei­che Un­ter­neh­men über­füh­ren his­to­ri­sche Daten ope­ra­ti­ver Da­ten­ver­ar­bei­tungs­sys­te­me in re­gel­mä­ßi­gen Abständen in ein solches Da­ten­la­ger und bereiten diese dort für spätere Zugriffe und stra­te­gi­sche Analysen im Rahmen der Business In­tel­li­gence (BI) auf. Aus ope­ra­ti­ven Daten werden dis­po­si­ti­ve Daten:

  • Operative Daten: Bei ope­ra­ti­ven Daten handelt es sich um trans­ak­ti­ons­ori­en­tier­te In­for­ma­tio­nen, die in Un­ter­neh­men während des Ta­ges­ge­schäfts anfallen und von Ad­mi­nis­tra­ti­ons- und Ab­rech­nungs­sys­te­men generiert werden. Zu den typischen Da­ten­quel­len zählen operative Da­ten­ver­ar­bei­tungs­sys­te­me wie Buch­hal­tungs­pro­gram­me, Wa­ren­wirt­schafts­sys­te­me, En­ter­pri­se-Resource-Planning (ERP) oder Auskunfts- und Be­stell­sys­te­me.  
  • Dis­po­si­ti­ve Daten: Werden operative Daten an einer zentralen Stelle zu­sam­men­ge­führt (agg­re­giert), lang­fris­tig ge­spei­chert und für Analysen auf­be­rei­tet, spricht man von dis­po­si­ti­ven Daten.

Ein DWH bietet Analysten eine um­fas­sen­de Sicht auf he­te­ro­ge­ne Da­ten­be­stän­de und er­mög­licht die Ag­gre­ga­ti­on be­trieb­li­cher Kenn­zah­len im Rahmen des Online Ana­ly­ti­cal Pro­ces­sings (OLAP). Als zentrale Sam­mel­stel­le aller re­le­van­ten Un­ter­neh­mens­da­ten dient das DWH dem un­ter­neh­mens­in­ter­nen Wis­sens­ma­nage­ment. Anwendern wird dabei in der der Regel nur der Le­se­zu­griff gewährt. Ein DWH fungiert als Da­ten­ba­sis für Data-Mining-Methoden und ist Grundlage aller Über­le­gun­gen im Rahmen des Leis­tungs­ma­nage­ments und der stra­te­gi­schen Un­ter­neh­mens­aus­rich­tung.

Aufbau eines DWH: Data-Warehouse-Ar­chi­tek­tur

Der Prozess der Be­wirt­schaf­tung und Aus­wer­tung eines DWH wird Data-Warehousing genannt und umfasst folgende Phasen:

  1. Da­ten­be­schaf­fung und Da­ten­in­te­gra­ti­on
  2. Da­ten­hal­tung
  3. Da­ten­aus­wer­tung und -analyse

Die Phasen des Data-Warehousing spiegeln sich im ide­al­ty­pi­schen Aufbau, der so­ge­nann­ten Re­fe­renz­ar­chi­tek­tur, von Data-Warehouse-Systemen wider. Zwar un­ter­schei­det sich die Sys­tem­ar­chi­tek­tur eines DWH je nach Produkt und Anbieter – grund­sätz­lich ori­en­tiert sich der tech­ni­sche Aufbau jedoch an einem modularen Muster, das sich in drei Ebenen gliedern lässt:

  • Da­ten­er­fas­sungs­ebe­ne
  • Da­ten­hal­tungs­ebe­ne
  • Da­ten­be­reit­stel­lungs­ebe­ne

Zudem gibt es eine zentrale Kon­troll­kom­po­nen­te: den Data-Warehouse-Manager, der jeder Ebene des DWH spezielle Ad­mi­nis­tra­ti­ons­funk­tio­nen zuordnet. Die einzelnen Kom­po­nen­ten eines Data-Warehouse müssen nicht zwangs­läu­fig von einem Anbieter stammen. Die je­wei­li­gen Services können durchaus von un­ter­schied­li­chen Soft­ware­pro­duk­ten oder In­di­vi­du­al­lö­sun­gen be­reit­ge­stellt werden.

Folgende Abbildung zeigt eine sche­ma­ti­sche Dar­stel­lung der DWH-Re­fe­renz­ar­chi­tek­tur.

Da­ten­er­fas­sungs­ebe­ne

Bevor Daten ins DWH geladen werden können, müssen die oft sehr he­te­ro­ge­nen In­for­ma­tio­nen in eine ein­heit­li­che Dar­stel­lungs­form überführt werden. Ein DWH speist sich sowohl aus internen Da­ten­quel­len eines Un­ter­neh­mens als auch aus re­le­van­ten externen Da­ten­quel­len:

  • Interne Daten: Operative Systeme: En­ter­pri­se-Resource-Planning-Systeme (ERP), Customer-Re­la­ti­onship-Ma­nage­ment-Systeme (CRM); operative Da­ten­ban­ken; Content-Ma­nage­ment-Systeme (CMS); Flat-Files (z. B. Excel, CSV, Text-Dateien), Mails etc.
  • Externe Daten: An­wen­dun­gen und Systeme externer Dienst­leis­ter, Websites/Internet, Social Media, Cloud-Services etc.

Systeme auf der Da­ten­er­fas­sungs­ebe­ne stellen Schnitt­stel­len zu den ope­ra­ti­ven Systemen eines Un­ter­neh­mens bereit und kommen in der ersten Phase des Data-Warehousings zum Einsatz: Zentrale Funk­tio­nen dieser DWH-Kom­po­nen­te sind Da­ten­be­schaf­fung und Da­ten­in­te­gra­ti­on

Im Rahmen der Da­ten­be­schaf­fung kommen folgende Ex­trak­ti­ons­tech­ni­ken zum Einsatz:

  • Trigger: Sofern die ope­ra­ti­ven Systeme eines Un­ter­neh­mens Da­ten­bank­t­rig­ger un­ter­stüt­zen, lassen sich diese einsetzen, um die Da­ten­ex­trak­ti­on zu au­to­ma­ti­sie­ren. Trigger er­mög­li­chen es, Ope­ra­tio­nen zu de­fi­nie­ren, die beim Ein­tref­fen be­stimm­ter Er­eig­nis­se au­to­ma­tisch aus­ge­führt werden. In der Regel handelt es sich bei den aus­lö­sen­den Er­eig­nis­sen um Än­de­run­gen im Da­ten­be­stand der Quel­len­sys­te­me, die zu einer Ex­trak­ti­on der mo­di­fi­zier­ten Daten in das DWH führen.
  • Pro­to­koll­da­tei­en: Un­ter­stützt ein ope­ra­ti­ves System die Trigger-Tech­no­lo­gie nicht, kann die Da­ten­er­fas­sungs­ebe­ne eines DWH Programme be­inhal­ten, die in der Lage sind, die Pro­to­koll­da­tei­en (Logs) der Quell­sys­te­me aus­zu­wer­ten und die darin auf­ge­zeich­ne­ten Ope­ra­tio­nen zu ex­tra­hie­ren.
  • Mo­ni­tor­pro­gram­me: Stehen für die Ex­trak­ti­on weder Trigger noch Pro­to­koll­da­ten zur Verfügung, kommen in der Regel Mo­ni­tor­pro­gram­me zum Einsatz. Diese ex­tra­hie­ren Än­de­run­gen im Da­ten­be­stand eines ope­ra­ti­ven Systems anhand von Al­go­rith­men, die in re­gel­mä­ßi­gen Abständen Ab­bil­dun­gen (Snapshots) der zu über­wa­chen­den Daten erstellen und mit vor­he­ri­gen ab­glei­chen.

Wird keine der be­schrie­be­nen Techniken un­ter­stützt, da der Zugriff auf den Da­ten­be­stand des ope­ra­ti­ven Systems nicht möglich ist, muss dieses Än­de­run­gen selb­stän­dig pro­to­kol­lie­ren und relevante Mo­di­fi­ka­tio­nen an das Data-Warehouse über­mit­teln.

Die meisten DWHs stellen im Rahmen der Da­ten­in­te­gra­ti­on OLAP-Funk­tio­na­li­tä­ten zur Verfügung, die es er­mög­li­chen, Daten in mehr­di­men­sio­na­len Struk­tu­ren dar­zu­stel­len. Online Ana­ly­ti­cal Pro­ces­sing (OLAP) ist eine Ana­ly­se­me­tho­de, die der Ver­dich­tung ma­nage­ment­re­le­van­ter Un­ter­neh­mens­da­ten dient. Das Verfahren beruht auf dem ETL-Prozess:

  • E = Ex­tra­c­tion: Die Da­ten­ex­trak­ti­on umfasst das Auslesen re­le­van­ter In­for­ma­tio­nen aus ver­schie­de­nen Da­ten­quel­len. Das kann als Push- oder Pull- Strategie rea­li­siert werden. Erfolgt die Da­ten­ex­trak­ti­on im Rahmen einer Push-Strategie, werden Da­ten­quel­len dazu an­ge­hal­ten, in re­gel­mä­ßi­gen Abständen Extrakte zu erzeugen und diese an das DWH zu über­mit­teln. Im Fall einer Pull-Strategie stößt das DWH die Da­ten­ex­trak­ti­on von sich aus an.
  • T = Trans­for­ma­ti­on: Die ex­tra­hier­ten Daten werden im Rahmen einer Trans­for­ma­ti­on bereinigt und ein­heit­lich in das Format der Ziel­da­ten­bank übersetzt.
  • L = Loading: Die Ladephase umfasst das Ab­spei­chern der trans­for­mier­ten Daten in die je­wei­li­gen Ziel­da­ten­ban­ken des DWH.

Die Da­ten­er­fas­sungs­ebe­ne eines DWH kann eine so­ge­nann­te Staging Area be­inhal­ten (auch Ar­beits­be­reich genannt). Dabei handelt es sich um einen tem­po­rä­ren Bereich der Datenbank, in dem die Vor­ver­ar­bei­tung der zu ladenden Daten statt­fin­det. Ein solches Staging kann vor allem bei komplexen ETL-Prozessen er­for­der­lich sein.

Da im DWH Daten un­ter­schied­lichs­ter Quellen zu­sam­men­ge­führt werden, stützt sich die Da­ten­in­te­gra­ti­on auf diverse Werkzeuge, die eine Trans­for­ma­ti­on und Be­rei­ni­gung der ex­tra­hier­ten Daten er­mög­li­chen. Diese lassen sich folgenden Ka­te­go­rien zuordnen.

  • Data-Migration-Werkzeuge: Programme für die Da­ten­mi­gra­ti­on er­mög­li­chen es, einfache Trans­for­ma­ti­ons­re­geln zu de­fi­nie­ren, um he­te­ro­ge­ne Aus­gangs­da­ten in ein ein­heit­li­ches Ziel­for­mat zu über­füh­ren.
  • Data-Scrubbing-Werkzeuge: Im Rahmen des Data-Scrub­bings kommen Programme zum Einsatz, die sich auf den Fuzzy-Logic-Ansatz und Neuronale Netze stützen. Ziel ist die Ver­bes­se­rung der Da­ten­qua­li­tät, indem Fehler, Lücken und Wie­der­ho­lun­gen in Da­ten­sät­zen durch vor­de­fi­nier­te Regeln, Al­go­rith­men oder Lookup-Tables (LUT) aus­ge­bes­sert werden. Man spricht in diesem Fall auch von Quality Ma­nage­ment.  
  • Data-Auditing-Werkzeuge: Data-Auditing-Werkzeuge kommen im Rahmen der Da­ten­in­te­gra­ti­on zum Einsatz, um Regeln und Be­zie­hun­gen zwischen Daten zu ermitteln. Zudem er­mög­li­chen Programme dieser Art, Daten zu iden­ti­fi­zie­ren, die gegen die er­mit­tel­ten Regeln verstoßen und somit vor­aus­sicht­lich feh­ler­haft sind.

Auf die Da­ten­in­te­gra­ti­on folgt die Übernahme der ex­tra­hier­ten Daten in die zentrale Datenbank, das so­ge­nann­te Core-Data-Warehouse. Un­ter­stützt wird dieser Schritt durch Programme, die folgende Funk­tio­nen zur Verfügung stellen:

  • In­te­gri­täts­be­din­gun­gen prüfen
  • Daten sortieren
  • Ag­gre­ga­tio­nen berechnen
  • Zu­griffs­struk­tu­ren berechnen
  • Daten für einen ef­fi­zi­en­ten Zugriff par­ti­tio­nie­ren

Da­ten­hal­tungs­ebe­ne

Kern des DWH stellt die Da­ten­hal­tungs­ebe­ne dar. Diese umfasst das so­ge­nann­te Core-Data-Warehouse. Ex­tra­hier­te Daten werden im DWH meist in Form von mehr­di­men­sio­na­len Matrizen, so­ge­nann­ten Stern- und Schnee­flo­cken­sche­ma­ta, ge­spei­chert und im Rahmen der Lang­zeit­ar­chi­vie­rung dauerhaft für zu­künf­ti­ge Analysen vor­ge­hal­ten. Diese beziehen sich jedoch nur selten auf den gesamten Da­ten­be­stand des DWH. Um eine ef­fi­zi­en­te Aus­wer­tung zu er­mög­li­chen, ist es daher üblich, Da­ten­aus­schnit­te des Ge­samt­be­stands, so­ge­nann­te Data-Marts anzulegen.

Ein Data-Mart ist eine Kopie eines Teil­da­ten­be­stan­des, die in der Regel nicht-per­sis­tent als Zwi­schen­spei­cher rea­li­siert wird. Mitunter werden jedoch auch so­ge­nann­te un­ab­hän­gi­ge Data-Marts genutzt, die einen separaten Da­ten­aus­schnitt dauerhaft vorhalten.

Bei einem Stern­sche­ma handelt es sich um eine Form eines Entitäten-Re­la­tio­nen-Diagramms (Entity Re­la­ti­onship Diagram, ERD) – also eine grafische Dar­stel­lung der Ta­bel­len­struk­tur einer Datenbank, bei der die ver­schie­de­nen Entitäten sowie deren Be­zie­hun­gen zu­ein­an­der ver­an­schau­licht werden. Das Stern­sche­ma dient somit der Vi­sua­li­sie­rung mul­ti­di­men­sio­na­ler Da­ten­struk­tu­ren.

Jedes Stern­sche­ma besteht aus einer Fak­ten­ta­bel­le und mehreren Di­men­si­ons­ta­bel­len, die sich eben stern­för­mig um die Fak­ten­ta­bel­le grup­pie­ren.

  • Die Fak­ten­ta­bel­le be­inhal­tet so­ge­nann­te Fakten: Kenn- und Er­geb­nis­zah­len eines Un­ter­neh­mens, die fort­lau­fend fest­ge­hal­ten werden (bei­spiels­wei­se der Umsatz).
  • Die Di­men­si­ons­ta­bel­len enthalten Attribute, mit denen sich die Daten der Fak­ten­ta­bel­le be­schrei­ben lassen. Es handelt sich bei einer Di­men­si­ons­ta­bel­le somit um eine Sammlung von Re­fe­renz­in­for­ma­tio­nen zu den in der Fak­ten­ta­bel­le ge­spei­cher­ten Er­eig­nis­sen.

In einem Stern­sche­ma (star schema) ist lediglich die Fak­ten­ta­bel­le mit allen Di­men­si­ons­ta­bel­len über Fremd­schlüs­sel­be­zie­hun­gen verbunden. Ver­bin­dun­gen zwischen einzelnen Di­men­si­ons­ta­bel­len werden nicht her­ge­stellt. Folgende Abbildung zeigt eine ver­ein­fach­te Dar­stel­lung einer solchen Da­ten­struk­tur:

Im oben dar­ge­stell­ten Stern­sche­ma lässt sich der Fakt Umsatz bei­spiels­wei­se in Relation zu einem be­stimm­ten Ver­kaufs­ka­nal, einem spe­zi­el­len Produkt, einem Verkäufer, der Region oder dem je­wei­li­gen Zeitraum dar­stel­len. Eine mögliche Abfrage über drei Di­men­sio­nen wäre bei­spiels­wei­se: Wieviel Umsatz wurde mit einem be­stimm­ten Produkt im Zeitraum 2016 über den Ver­kaufs­ka­nal Online erzielt?

Eine Wei­ter­füh­rung des Stern­sche­mas ist das Schnee­flo­cken­sche­ma (snowflake schema). Während die Di­men­si­ons­ta­bel­len eines Stern­sche­mas in de­nor­ma­li­sier­ter Form vorliegen, werden Re­fe­renz­in­for­ma­tio­nen beim Schnee­flo­cken­sche­ma gemäß der 3. Nor­mal­form ge­spei­chert. Es findet somit eine Klas­si­fi­zie­rung und Hier­ar­chi­sie­rung der Daten statt, bei der red­un­dan­te In­for­ma­tio­nen in neue Tabellen aus­ge­la­gert werden. Es entstehen dadurch die cha­rak­te­ris­ti­schen Ver­zwei­gun­gen, die an Schnee­flo­cken erinnern.

Schnee­flo­cken­sche­ma­ta zeichnen sich gegenüber Stern­sche­ma­ta durch einen ge­rin­ge­ren Spei­cher­platz­ver­brauch aus. Dieser re­sul­tiert aus der nor­ma­li­sier­ten Da­ten­hal­tung. Unter Nor­ma­li­sie­rung versteht man die Aus­la­ge­rung von Ta­bel­len­spal­ten in neue Tabellen mit dem Ziel, doppelte Einträge zu vermeiden. Der Abbau von Red­un­dan­zen reduziert zudem den Aufwand im Rahmen der Da­ten­pfle­ge: Jede In­for­ma­ti­on liegt im besten Fall nur einmal vor und muss somit bei Bedarf nur an einer Stelle angepasst werden.

Werden Daten in nor­ma­li­sier­te Tabellen aus­ge­la­gert, führt dies jedoch zwangs­läu­fig zu kom­ple­xe­ren Da­ten­struk­tu­ren, die in der Regel längere Ab­fra­ge­zei­ten mit sich bringen. Möchten Analysten auf Daten in einem Schnee­flo­cken­sche­ma zugreifen, müssen die mehr­stu­fi­gen Di­men­si­ons­ta­bel­len zunächst im Rahmen eines Joins (Verbund) verknüpft werden.

Fakt

Bei einem Join handelt es sich um eine Da­ten­bank­ope­ra­ti­on, mit der sich via Fremd­schlüs­sel ver­knüpf­te Da­ten­bank­ta­bel­len unter be­stimm­ten Be­din­gun­gen zu­sam­men­füh­ren lassen.

In der Praxis basiert die Da­ten­struk­tur eines DWH meist auf dem Schnee­flo­cken­sche­ma, während einzelne Data-Marts als Stern­sche­ma­ta rea­li­siert werden.

Man spricht bei Stern- bzw. Schnee­flo­cken­sche­ma­ta von Di­men­si­ons­ta­bel­len, da sich jede Tabelle als eine Dimension eines mehr­di­men­sio­na­len OLAP-Würfels dar­stel­len lässt. Dies er­mög­licht es Analysten, die im DWH ge­spei­cher­ten Fakten in Relation zu beliebig vielen Re­fe­renz­in­for­ma­tio­nen zu setzen, um be­triebs­wirt­schaft­li­che Kenn­zah­len – wie bei­spiels­wei­se den Umsatz – anhand ver­schie­de­ner Aspekte mehr­di­men­sio­nal zu ana­ly­sie­ren und in diversen De­tail­lie­rungs­stu­fen zu un­ter­su­chen.

Folgende Abbildung zeigt die sche­ma­ti­sche Dar­stel­lung eines drei­di­men­sio­na­len OLAP-Würfels, dessen Kanten die Di­men­sio­nen Pro­dukt­spar­te, Ver­triebs­ka­nal und Zeitraum auf­span­nen. Die Länge der Wür­fel­kan­ten wird durch die Anzahl der Zellen bestimmt. Jede Wür­fel­zel­le enthält genau einen Wert – bei­spiels­wei­se den Umsatz für die Pro­dukt­spar­te Haft­pflicht­ver­si­che­run­gen im Jahr 2016 über den Ver­triebs­weg Fi­li­al­han­del (in der Grafik hellblau her­vor­ge­ho­ben).

Das OLAP-Verfahren ist nicht auf drei Di­men­sio­nen be­schränkt. Ein solcher Da­ten­wür­fel ist n-di­men­sio­nal aufgebaut und kann prin­zi­pi­ell beliebig viele Di­men­sio­nen umfassen.

Fakt

Je nachdem, welche Spei­cher­tech­nik dem Core-Data-Warehouse zugrunde liegt, un­ter­schie­det man zwischen ver­schie­de­nen OLAP-Verfahren. Greift der Würfel auf Daten aus einer re­la­tio­na­len Datenbank zurück, spricht man von ROLAP (re­la­tio­na­les OLAP). Würfel auf Basis mul­ti­di­men­sio­na­ler Da­ten­ban­ken werden MOLAP (mul­ti­di­men­sio­na­les OLAP) genannt.

Da­ten­be­reit­stel­lungs­ebe­ne

Die Da­ten­be­reit­stel­lungs­ebe­ne fungiert als Schnitt­stel­le zu End­an­wen­dun­gen und Prä­sen­ta­ti­ons­werk­zeu­gen. Methoden zur Da­ten­aus­wer­tung und -analyse werden von diversen End­an­wen­der­werk­zeu­gen zur Verfügung gestellt. Diese er­mög­li­chen es, In­for­ma­tio­nen aus dem Da­ten­be­stand des Data-Warehouse zu ex­tra­hie­ren und für End­an­wen­der in un­ter­schied­li­chen Dar­stel­lungs­for­men auf­zu­be­rei­ten. Das Spektrum umfasst Bericht- und Ab­fra­ge­werk­zeu­ge, Kol­la­bo­ra­ti­ons-Tools, Data-Mining-Werkzeuge, Werkzeuge des Online Ana­ly­ti­cal Pro­ces­sing (OLAP), Executive In­for­ma­ti­on Systems (EIS) sowie Fo­re­cas­ting- und Si­mu­la­ti­on-Tools.

Bericht- und Ab­fra­ge­werk­zeu­ge

Be­richt­werk­zeu­ge stellen End­an­wen­dern un­ter­schied­li­che Funk­tio­nen zur Verfügung, um vor­de­fi­nier­te Stan­dard­be­rich­te (Pre­de­fi­ned Re­portings) zu erstellen. Dies kann au­to­ma­ti­siert in re­gel­mä­ßi­gen Zeit­ab­stän­den erfolgen oder bei Bedarf auf Anfrage. Um End­an­wen­dern Anfragen an das DWH zu er­leich­tern, lassen sich auch diese mithilfe von An­fra­ge­werk­zeu­gen vor­de­fi­nie­ren.

Kol­la­bo­ra­ti­ons-Tools

Kol­la­bo­ra­ti­on-Tools un­ter­stüt­zen die Kom­mu­ni­ka­ti­on und Zu­sam­men­ar­beit von End­an­wen­dern bei der Da­ten­ana­ly­se. Das Funk­ti­ons­spek­trum dieser Werkzeuge umfasst bei­spiels­wei­se das Speichern von An­mer­kun­gen und den Austausch von Ana­ly­se­er­geb­nis­sen.

Data-Mining-Werkzeuge

Unter den Sam­mel­be­griff Data-Mining fallen alle un­ge­rich­te­ten, teilweise au­to­ma­ti­sier­ten Ana­ly­se­me­tho­den, die darauf abzielen, relevante Muster, Trends und Be­zie­hun­gen im Da­ten­be­stand zu ermitteln. Data-Mining-Werkzeuge stützen sich auf sta­tis­ti­sche und ma­the­ma­ti­sche Methoden sowie auf Techniken der Künst­li­chen In­tel­li­genz (KI) und des Ma­schi­nen­ler­nens. Der Umfang der Daten, die Un­ter­neh­men erzeugen, ver­ar­bei­ten und zu Ana­ly­se­zwe­cken in DWHs zu­sam­men­füh­ren, wächst ex­po­nen­ti­ell. Das durch­schnitt­li­che Da­ten­vo­lu­men weltweit ver­dop­pelt sich alle zwei Jahre. Vor diesem Hin­ter­grund gewinnen Data-Mining-Methoden im Rahmen des Data-Warehousings zunehmend an Bedeutung.

Werkzeuge des Online Ana­ly­ti­cal Pro­ces­sing (OLAP)

Von den zur Verfügung stehenden Da­ten­aus­wer­tungs- und Analyse-Werk­zeu­gen haben sich im Rahmen des Data-Warehousing vor allem OLAP-An­wen­dun­gen als Stan­dard­be­nut­zer­schnitt­stel­le etabliert. Werkzeuge, die im Rahmen des Online Ana­ly­ti­cal Pro­ces­sings zum Einsatz kommen, stellen End­an­wen­dern ver­schie­de­ne Funk­tio­nen zur Verfügung, mit denen sich Anfragen an das DWH ad-hoc for­mu­lie­ren lassen. Sie dienen der Na­vi­ga­ti­on durch den mul­ti­di­men­sio­na­len Da­ten­be­stand. Die Dar­stel­lung via OLAP er­mög­licht es, auf­be­rei­te­te Daten in Ab­hän­gig­keit zu beliebig vielen vor­de­fi­nier­ten Di­men­sio­nen zu mo­del­lie­ren. Analysten stehen dabei ver­schie­de­ne Grund­ope­ra­tio­nen zur Verfügung, mit denen sich ein OLAP-Würfel be­ar­bei­ten lässt.

  • Slicing: Als Slicing be­zeich­net man ein Verfahren, das eine Dimension des OLAP-Würfels auf eine Teilmenge ein­ge­grenzt. Es wird praktisch eine Scheibe aus dem Da­ten­wür­fel her­aus­ge­schnit­ten und separat be­trach­tet.
    In folgender Abbildung wurde die Dimension Zeitraum auf die Teilmenge 2015 ein­ge­grenzt. Der Aus­schnitt zeigt somit die Umsätze für alle Ver­si­che­rungs­pro­duk­te, die im Jahr 2015 über alle Ver­triebs­ka­na­le generiert wurden.
  • Dicing: Wird ein OLAP-Würfel durch simultane Slicing-Ope­ra­tio­nen in mehreren Di­men­sio­nen be­schnit­ten, spricht man von Dicing. Beim Dicing-Verfahren wird ein kleinerer Würfel erzeugt, der eine Teilmenge des Ge­samt­wür­fels darstellt.
    Folgende Abbildung zeigt eine Dicing-Operation, bei der der Ge­samt­wür­fel in allen drei Di­men­sio­nen auf eine Teilmenge reduziert wurde.
  • Pivoting: Das Drehen des Da­ten­wür­fels, sodass min­des­tens eine andere Dimension sichtbar wird, be­zeich­net man als Pivoting.
  • Drill-Down/Roll-Up: Sollen die Ag­gre­ga­tio­nen eines In­for­ma­ti­ons­ob­jekts auf de­tail­lier­te­re Werte her­un­ter­ge­bro­chen werden, kommt die Operation Drill-Down zum Einsatz. Diese er­mög­licht es Analysten, in einen OLAP-Würfel hin­ein­zu­zoo­men und somit die Gra­nu­la­ri­tät der Daten zu erhöhen. Als Ge­gen­ope­ra­ti­on zum Drill-Down dient ein Roll-Up dem Ver­dich­ten von In­for­ma­tio­nen auf höhere Hier­ar­chie­stu­fen. Drill-Down und Roll-Up kommen bei der Na­vi­ga­ti­on in mehr­di­men­sio­na­len hier­ar­chi­schen Struk­tu­ren zum Einsatz.
    Folgende Abbildung zeigt ein Drill-Down des In­for­ma­ti­ons­ob­jekts Umsatz in der Dimension Pro­dukt­spar­te. Die Gra­nu­la­ri­tät wird erhöht, sodass sich die im DWH ge­spei­cher­ten Um­satz­zah­len in Bezug auf einzelne Produkte in­ter­pre­tie­ren lassen.
  • Drill-Out/Split: Der Drill-Out-Operator (auch Split genannt) er­mög­licht es Analysten, einem OLAP-Würfel weitere Dimension hin­zu­zu­fü­gen. Das Ergebnis sind de­tail­lier­te­re Daten. Anders als beim Drill-Down wird der De­tail­grad jedoch nicht in Bezug auf die Gra­nu­la­ri­tät erhöht, sondern durch einen In­for­ma­ti­ons­ge­winn, der aus den zu­sätz­li­chen Re­fe­renz­in­for­ma­tio­nen der hin­zu­ge­füg­ten Di­men­sio­nen re­sul­tiert.
  • Drill-In/Merge: Als Ge­gen­ope­ra­ti­on zum Drill-Out wird der De­tail­grad des OLAP-Würfels beim Drill-In durch das Ent­fer­nern von Di­men­sio­nen ver­rin­gert. Im Gegensatz zu Roll-Up re­sul­tiert der In­for­ma­ti­ons­ver­lust auch bei dieser Operation nicht aus einer Ver­än­de­rung der Be­trach­tungs­ebe­ne, sondern aus dem Verlust di­men­sio­na­ler In­for­ma­tio­nen. Die Gra­nu­la­ri­tät bleibt die Gleiche.
  • Drill-Across: Auch die Da­ten­ope­ra­ti­on Drill-Across dient der Analyse des Da­ten­be­stan­des. Während sich die bisher be­spro­che­nen Ope­ra­tio­nen stets auf einen OLAP-Würfel beziehen, wird das Drill-Across-Verfahren auf mehrere kor­re­lier­te Da­ten­wür­fel an­ge­wen­det, um globale Analysen zu er­mög­li­chen. Dabei werden beliebig viele Fak­ten­ta­bel­len mit min­des­tens einer ge­mein­sa­men Dimension auf der gleichen Hier­ar­chie­stu­fe und Gra­nu­la­ri­tät (sprich: unter Bei­be­hal­tung der Be­trach­tungs­ebe­ne) ana­ly­siert.
  • Drill-Through: Bei einem Drill-Through handelt es sich um eine Operation, bei der ein Analyst eine einzelne Zelle eines Da­ten­wür­fels auswählt und im höchsten De­tail­lie­rungs­grad be­trach­tet. Anders als beim Drill-Down greift der Drill-Through dabei auf die Quell­da­ten der aus­ge­wähl­ten Wür­fel­zel­le zu. Das Resultat der Drill-Through-Operation wird somit aus den Ta­bel­len­zel­len ab­ge­lei­tet, die der Be­rech­nung der aus­ge­wähl­ten Wür­fel­zel­le zugrunde liegen.

Executive In­for­ma­ti­on Systems (EIS)

Ähnlich wie OLAP stellen EIS-Tools End­an­wen­dern ver­schie­de­ne Mög­lich­kei­ten zur Verfügung, Ad-hoc-Anfragen zu for­mu­lie­ren und Daten zu mo­del­lie­ren. In Ab­gren­zung zu OLAP wird der Begriff EIS heut­zu­ta­ge jedoch in erster Linie auf fertige An­wen­dungs­sys­te­me bezogen, die vor­de­fi­nier­te Berichte für bestimmte Be­triebs­be­rei­che wie den Verkauf, das Marketing oder die Fi­nanz­pla­nung zur Verfügung stellen.

Fo­re­cas­ting- und Si­mu­la­ti­on-Tools

Fo­re­cas­ting- und Si­mu­la­ti­on-Tools bieten End­an­wen­dern die Mög­lich­keit, im DWH ge­spei­cher­te Kenn­zah­len in die Zukunft fort­zu­schrei­ben, um Vor­her­sa­ge­mo­del­le zu erstellen.

Data-Warehouse-Ma­nage­ment

Auf allen Ebenen des DWHs sind spezielle Werkzeuge aktiv, die im Bereich Warehouse-Ma­nage­ment zu­sam­men­ge­fasst werden. Aufgabe dieser Kom­po­nen­ten ist der Aufbau, die Wartung und der Betrieb aller Ad­mi­nis­tra­ti­ons­funk­tio­nen, die im Rahmen des Data-Warehousings benötigt werden. Zentrale Auf­ga­ben­fel­der des DWH-Managers sind das Sche­du­ling der DWH-Prozesse, das Metadaten-Ma­nage­ment, das Si­cher­heits­ma­nage­ment sowie das Sys­tem­ma­nage­ment.

  • Sche­du­ling: Das Sche­du­ling umfasst die Steuerung der DWH-Prozesse. Ad­mi­nis­tra­ti­ons­funk­tio­nen im Rahmen des Sche­du­lings lassen sich in Bezug auf die Ebenen der Data-Warehouse-Ar­chi­tek­tur fol­gen­der­ma­ßen ka­te­go­ri­sie­ren:
  • Da­ten­er­fas­sung/Da­ten­in­te­gra­ti­on: Auf der Da­ten­er­fas­sungs­ebe­ne ist der DWH-Manager für das Design und die Anpassung der ETL-Prozesse zuständig. Darüber hinaus werden Ad­mi­nis­tra­ti­ons­funk­tio­nen be­reit­ge­stellt, um Ak­tua­li­sie­rungs­vor­gän­ge und das Qua­li­täts­ma­nage­ment zu über­wa­chen.
  • Da­ten­hal­tung: Auf der Ebene der Da­ten­hal­tung überwacht der DWH-Manager die Spei­cher­aus­las­tung, kon­stru­iert Ag­gre­ga­ti­ons­ta­bel­len und führt Ar­chi­vie­rungs- und Backup-Ope­ra­tio­nen aus.
  • Da­ten­be­reit­stel­lung: Ad­mi­nis­tra­ti­ons­funk­tio­nen auf der Da­ten­be­reit­stel­lungs­ebe­ne umfassen die Be­nut­zer­ver­wal­tung sowie die Über­wa­chung von An­fra­ge­lauf­zei­ten.
  • Metadaten-Ma­nage­ment: Zentrale Kom­po­nen­te des DWH-Managers ist das Metadaten-Re­po­si­to­ry. Es enthält alle In­for­ma­tio­nen, die für die Kon­struk­ti­on und den Betrieb des DWHs er­for­der­lich sind, sowie In­for­ma­tio­nen über den Da­ten­be­stand des DWH. Im Re­po­si­to­ry ge­spei­cher­te Metadaten umfassen bei­spiels­wei­se die De­fi­ni­ti­on des zu­grun­de­lie­gen­den Datenbank-Schemas, In­for­ma­tio­nen zu Spei­cher­struk­tu­ren, zu Zu­griffs­pfa­den und Da­tei­grö­ßen, Metadaten zur Be­schrei­bung der Da­ten­quel­len sowie Ak­tua­li­sie­rungs­zeit­punk­te, Da­ten­be­rei­ni­gungs- und Trans­for­ma­ti­ons­re­geln, Indizes und Par­ti­ti­ons­ta­bel­len. Darüber hinaus sorgt der DWH-Manager für einen Austausch der Metadaten zwischen den einzelnen Kom­po­nen­ten des DWH und stellt somit eine homogene Me­ta­da­ten­ba­sis bereit.
  • Si­cher­heits­ma­nage­ment: Das Si­cher­heits­ma­nage­ment umfasst diverse Dienste im Rahmen der Nut­zer­au­then­ti­fi­zie­rung, Au­to­ri­sie­rung und Ver­schlüs­se­lung.
  • Sys­tem­ma­nage­ment: Im Rahmen des Sys­tem­ma­nage­ments stellt der DWH-Manager ver­schie­de­ne Ad­mi­nis­tra­ti­ons­funk­tio­nen für den Betrieb des DWH bereit. Diese umfassen bei­spiels­wei­se das Mo­ni­to­ring (Per­for­mance, Aus­las­tung etc.), die Da­ten­ar­chi­vie­rung oder die Da­ten­si­che­rung.

Data-Warehousing unter da­ten­schutz­recht­li­chen Ge­sichts­punk­ten

Die groß angelegte Ag­gre­ga­ti­on von Betriebs-, Geschäfts- und Kun­den­da­ten in einem Data-Warehouse sowie die Analyse dieser Da­ten­mas­sen mithilfe von Data-Mining-Methoden oder OLAP-An­wen­dun­gen bieten für Un­ter­neh­men Chancen, Ge­schäfts­pro­zes­se nach­hal­tig zu op­ti­mie­ren. Da­ten­schüt­zer betonen neben den Vorteilen im Rahmen der Ent­schei­dungs­fin­dung jedoch auch die Risiken solcher Big-Data-Analysen – speziell für das Grund­recht auf in­for­ma­tio­nel­le Selbst­be­stim­mung und für den Schutz der Pri­vat­sphä­re.

Heikel seien laut Kritikern vor allem Analysen, die die Er­stel­lung von Per­sön­lich­keits­pro­fi­len und au­to­ma­ti­sier­te Vor­her­sa­gen von Ver­hal­tens- und Hand­lungs­wei­sen er­mög­li­chen. Im Fokus der Debatte steht das Ma­ni­pu­la­ti­ons­po­ten­zi­al von In­for­ma­tio­nen, die aus Data-Analysen gewonnen wurden.

Eine of­fi­zi­el­le Stel­lung­nah­me zum The­men­feld „Data-Warehouse, Data Mining und Da­ten­schutz“ bietet die Ent­schlie­ßung der 59. Konferenz der Da­ten­schutz­be­auf­trag­ten des Bundes und der Länder. In dieser for­mu­lie­ren die Da­ten­schüt­zer folgende Rah­men­be­din­gun­gen, die für eine rechts­kon­for­me Spei­che­rung per­so­nen­be­zo­ge­ner Daten sowie deren Wei­ter­ver­ar­bei­tung gelten:

  • Zweck­bin­dung per­so­nen­be­zo­ge­nen Daten: Per­so­nen­be­zo­ge­ne Daten dürfen nur im Rahmen der ge­setz­lich zu­ge­las­se­nen Zwecke oder der ge­gen­sei­ti­gen Ver­ein­ba­run­gen erfasst, ge­spei­chert und ver­ar­bei­tet werden. Eine Spei­che­rung per­so­nen­be­zo­ge­ner Daten in einem Data-Warehouse entfernt sich den Da­ten­schüt­zern zufolge vom ur­sprüng­li­chen Ver­wen­dungs­zweck und stellt eine un­zu­läs­si­ge Spei­che­rung auf Vorrat ohne Zweck­bin­dung dar.
  • Zweck­än­de­rung nur mit Ein­wil­li­gung: Eine Änderung des Spei­cher­zwecks per­so­nen­be­zo­ge­ner Daten ist nur mit Ein­wil­li­gung der Be­trof­fe­nen zulässig. Diese müssen zudem über die Tragweite der Ein­wil­li­gung auf­ge­klärt werden. Verfahren, bei denen per­so­nen­be­zo­ge­ne Daten erhoben werden, müssen so gestaltet werden, dass Be­trof­fe­ne die Risiken ab­schät­zen und ihre Rechte wahr­neh­men können. Eine Ein­wil­li­gung kann jederzeit zu­rück­ge­zo­gen werden.
  • Erhebung per­so­nen­be­zo­ge­ner Daten nur, wenn nötig: Da­ten­ver­ar­bei­tungs­sys­te­me sind so zu gestalten, dass so wenig per­so­nen­be­zo­ge­ne Daten wie nötig erhoben werden. An­ony­mi­sier­te und pseud­ony­mi­sier­te Verfahren sind den Da­ten­schüt­zern zufolge un­be­denk­lich.
  • Die per­ma­nen­te Spei­che­rung per­so­nen­be­zo­ge­ner Daten ist un­zu­läs­sig: Bei der Spei­che­rung per­so­nen­be­zo­ge­ner Daten sind die ge­setz­li­chen Spei­cher­fris­ten zu beachten. Eine Spei­che­rung über die ge­setz­li­chen Fristen hinaus ist rechts­wid­rig.
  • Au­to­ma­ti­sier­te Ein­zel­ent­schei­dun­gen sind zu vermeiden: Mitunter werden Data-Mining-Verfahren im Rahmen au­to­ma­ti­sier­ter Ein­zel­ent­schei­dun­gen verwendet. Dabei handelt es sich um Ent­schei­dun­gen, die sich aus­schließ­lich auf eine au­to­ma­ti­sier­te Ver­ar­bei­tung per­so­nen­be­zo­ge­ner Daten stützen, die der Bewertung einzelner Per­sön­lich­keits­merk­ma­le dient. Ein solches Vorgehen ist un­zu­läs­sig: Die eu­ro­päi­sche Da­ten­schutz­richt­li­nie spricht jeder Person das Recht zu, keiner be­las­ten­den au­to­ma­ti­sier­ten Ein­zel­ent­schei­dung un­ter­wor­fen zu werden.

Die Ent­schlie­ßung der Da­ten­schutz­be­auf­trag­ten endet mit der Emp­feh­lung an Her­stel­ler und Anwender, bei Data-Warehouse-Systemen und Data-Mining-Verfahren grund­sätz­lich auf da­ten­schutz­freund­li­che Tech­no­lo­gien zu setzen, die eine Spei­che­rung per­so­nen­be­zo­ge­ner Daten durch An­ony­mi­sie­rung oder Pseud­ony­mi­sie­rung vermeiden.

Data-Warehouse-Software

Data-Warehousing ist schon lange kein Un­ter­fan­gen mehr, das lediglich in den Chef­eta­gen großer Konzerne dis­ku­tiert wird. Auch kleine und mittlere Un­ter­neh­men (KMU) sehen das Potenzial, durch Big-Data-Analysen Ge­schäfts­pro­zes­se zu op­ti­mie­ren. Neben hoch­prei­si­gen BI-Suiten und in­te­grier­ten DWH-Kom­plett­lö­sun­gen sind seit einigen Jahren daher auch kos­ten­güns­ti­ge Ein­stei­ger­pro­duk­te, flexible Cloud-Services und aus­ge­reif­te Open-Source-An­wen­dun­gen auf dem Markt, die speziell den Mit­tel­stand ins Visier nehmen.

Kos­ten­pflich­ti­ge Data-Warehousing-Produkte

Eta­blier­te kom­mer­zi­el­le BI-Software zeichnet sich in der Regel durch eine hohe Zu­ver­läs­sig­keit, ein im Rahmen von Service-Level-Agree­ments (SLA) ver­ein­bar­tes Leis­tungs­spek­trum und einen pro­fes­sio­nel­len Support aus. Anwender müssen dafür Kosten bei der An­schaf­fung oder für die cloud­ba­sier­te Nutzung einplanen.

Folgende Liste zeigt einen Überblick kos­ten­pflich­ti­ger Data-Warehousing-Produkte führender Anbieter in al­pha­be­ti­scher Rei­hen­fol­ge.

Anbieter pro­prie­tä­rer Software Data-Warehousing-Produkte
Amazon Web Services Amazon Redshift
Cloudera Cloudera En­ter­pri­se
Hewlett Packard En­ter­pri­se HP Vertica HP ArcSight Data-Platform HP Haven OnDemand HP IDOL HP Key View
IBM IBM Netezza IBM PureData System IBM In­foS­phe­re DataStage
Microsoft SQL Server Microsoft Analytics Platform System Azure HDInsight for Hadoop
Oracle Oracle Business In­tel­li­gence Oracle Database Oracle Exadata Database Machine Oracle NoSQL Database Oracle TimesTen In-Memory Database Oracle Big Data Appliance
Pivotal Software Pivotal Greenplum Pivotal Big Data Suite Pivotal HDB (powered by Apache HAWQ) Pivotal HDP (OEM Hor­tons­works Data Platform)
SAP SAP NetWeaver Business In­tel­li­gence SAP IQ SAP HANA En­ter­pri­se Cloud
SAS SAS Data Ma­nage­ment SAS Access Interface to Hadoop SAS Fe­de­ra­ti­on Server SAS Data Loader for Hadoop SAS Event Stream Pro­ces­sing
Snowflake Computing Snowflake
Teradata Teradata Active En­ter­pri­se Data Warehouse Teradata Data Warehouse Appliance Teradata Appliance for Hadoop Teradata In­te­gra­ted Big Data Platform Teradata Aster Big Analytics Appliance

Open-Source-Lösungen

Neben kos­ten­pflich­ti­gen Produkten bietet der Markt für Business-In­tel­li­gence-Software diverse Open-Source-Lösungen, die Data-Warehousing-Funk­tio­na­li­tä­ten kostenlos zur Verfügung stellen. Folgende Übersicht entstammt der Pu­bli­ka­ti­on „Business-In­tel­li­gence-Werkzeuge: Markt­über­sicht Open-Source-Werkzeuge aus dem Bereich Business In­tel­li­gence“, die das Bun­des­mi­nis­te­ri­um für Wirt­schaft und Energie (BMWI) über die Website www.mit­tel­stand-digital.de zur Verfügung stellt. Die Tabelle zeigt die ge­läu­figs­ten BI-Open-Source-Programme sowie deren An­wen­dungs­ge­bie­te

BI-Software Rohdaten ex­tra­hie­ren Rohdaten trans­for­mie­ren Trans-formierte Daten laden OLAP Data Mining Dash-boards Berichte
Pentaho DI - - - -
Talend OS - - - -
Jasper ETL - - - -
Pentaho Mondrian - - - -
Jedox - - -
BIRT - - - -
SQL Power Wabit - - -
KNIME -
Ra­pidMi­ner
Weka - -
Jas­per­Soft
Pentaho
SpagoBI

Den An­wen­dungs­ge­bie­ten ent­spre­chend lassen sich die auf­ge­führ­ten Open-Source-Programme den Bereichen ETL, OLAP, Data Mining und Be­richt­we­sen zuweisen. Zudem finden sich in­te­grier­te BI-Lösungen, die alle auf­ge­führ­ten An­wen­dungs­ge­bie­te abdecken.

ETL-Software

Für die Da­ten­er­fas­sung und In­te­gra­ti­on im Rahmen eines ETL-Prozesses bieten sich die Open-Source-Programme Pentaho DI, Talend OS und Jasper ETL an.

  • Pentaho DI: Das auch unter dem Namen Kettle bekannte ETL-Werkzeug Pentaho Data In­te­gra­ti­on (DI) ist Teil der Pentaho-BI-Suite, kann aber auch un­ab­hän­gig von den anderen Pentaho-Kom­po­nen­ten als Stan­da­lo­ne-Ap­pli­ka­ti­on in Data-Warehouse-Ar­chi­tek­tu­ren zum Einsatz kommen. Das Da­ten­er­fas­sungs- und In­te­gra­ti­ons-Tool verfügt über eine grafische Be­nut­zer­ober­flä­che, die auch Anwendern ohne Pro­gram­mier­kennt­nis­se er­mög­licht, ETL-Prozesse zu verwalten. Pentaho DI bietet dazu eine um­fang­rei­che Aus­wahl­pa­let­te diverser Prozess-Bausteine, mit denen sich die einzelnen Ar­beits­schrit­te des ETL-Prozesses de­fi­nie­ren lassen. Das Da­ten­in­te­gra­ti­ons­tool un­ter­stützt alle gängigen Da­ten­bank­sys­te­me. Zudem lassen sich Flat-Files wie CSV-, Excel- oder Text­da­tei­en als Da­ten­quel­len nutzen. Darüber hinaus stellt das Tool Schnitt­stel­len zu pro­prie­tä­ren BI-Suiten von SAS oder SAP sowie zu Analyse-Software wie Google Analytics zur Verfügung.
  • Talend OS: Ver­gleich­bar mit Pentaho DI ist das Open-Source-ETL-Werkzeug des Software-Anbieters Talend. Auch Talend Open Studio (OS) er­mög­licht Anwendern, Da­ten­er­fas­sungs- und In­te­gra­ti­ons­pro­zes­se mithilfe pa­ra­me­tri­sier­ter Bausteine (so­ge­nann­ter Jobs) zu de­fi­nie­ren. Das Programm bietet Schnitt­stel­len zu allen gängigen Da­ten­quel­len und diverse Da­ten­trans­for­ma­ti­ons­funk­tio­nen. Ein Map-Editor erlaubt es Anwendern, he­te­ro­ge­ne Rohdaten in eine vor­de­fi­nier­te Ziel­struk­tur zu über­tra­gen. Wie Pentaho DI kommt auch Talend OS Anwendern ohne Pro­gram­mier­kennt­nis­se mit einer gra­fi­schen Be­nut­zer­ober­flä­che entgegen.
  • Jasper ETL: Jasper ETL ist das Ergebnis einer Ko­ope­ra­ti­on der Soft­ware­her­stel­ler Jas­per­soft und Talend. Das ETL-Werkzeug basiert im We­sent­li­chen auf Talend OS, dem markt­füh­ren­den Da­ten­in­te­gra­ti­ons-Tool im Open-Source-Bereich. Ein Einsatz bietet sich vor allem dann an, wenn im Rahmen der DWH-Ar­chi­tek­tur noch andere BI-Produkte des Anbieters Jas­per­soft zum Einsatz kommen. 

OLAP-An­wen­dun­gen

Eta­blier­te OLAP-Werkzeuge unter Open-Source-Lizenz sind Pentaho Mondrian und Jedox.

  • Pentaho Mondrian: Bei Mondrian handelt es sich um einen java-basierten OLAP-Server. Ur­sprüng­lich als ei­gen­stän­di­ges Open-Source-Projekt ent­wi­ckelt, ist Mondrian seit 2006 Teil der Pentaho-BI-Suite. Anwendern steht die Software auch weiterhin als Stan­da­lo­ne-Ap­pli­ka­ti­on zur Verfügung. Zudem kommt Mondrian in den BI-Lösungen anderer Open-Source-Anbieter wie Jas­per­soft zum Einsatz. Anwender pro­fi­tie­ren so von einer Bündelung der Open-Source-Res­sour­cen, die ge­mein­sa­me Projekte wie die Mondrian Schema Workbench oder die OLAP4J-Schnitt­stel­le er­mög­licht. Das Mondrian-Projekt verfolgt einen re­la­tio­na­len Ansatz (ROLAP). Da­ten­ba­sis bildet eine re­la­tio­na­le Datenbank, deren Tabellen in Stern- oder Schnee­flo­cken-Schemata or­ga­ni­siert sind. Der Zugriff erfolgt in Form mehr­di­men­sio­na­ler Abfragen (MDX), via XML for Analysis (XMLA) oder über die Java-Schnitt­stel­le OLAP4J. Mit der Mondrian Schema Workbench steht Anwendern eine grafische Be­nut­zer­ober­flä­che zur Verfügung. Mondrian Schemata lassen sich bequem am Desktop ent­wi­ckeln und testen.
  • Jedox: Der Soft­ware­her­stel­ler Jedox bietet mit der gleich­na­mi­gen BI-Suite eine Kom­plett­lö­sung für Business-In­tel­li­gence- und Per­for­mance-Ma­nage­ment-An­wen­dun­gen an. Zentraler Be­stand­teil der Software ist ein leis­tungs­star­ker In-Memory-OLAP-Server, der über Schnitt­stel­len für Java, PHP, C/C++ oder .NET auch in andere Soft­ware­um­ge­bun­gen in­te­griert werden kann. Für Anwender im Bereich KMU bietet sich Jedox vor allem aufgrund des Excel-Add-ins an, über das sich der OLAP-Server auch mittels der bekannten Ta­bel­len­kal­ku­la­ti­ons­soft­ware von Microsoft bedienen lässt. Office-An­wen­dun­gen sind in kleinen und mittleren Betrieben weit ver­brei­tet und stellen dort oft die Basis der Da­ten­hal­tung dar. Die Excel-In­te­gra­ti­on reduziert somit den Aufwand für Ein­ar­bei­tung- und Mit­ar­bei­ter­schu­lung.

Data Mining

Auch im Bereich Data-Mining stehen Anwendern quell­of­fe­ne Produkte unter Open-Source-Lizenz zur Verfügung. Das BMWI empfiehlt KNIME, Ra­pidMi­ner und Weka.

  • KNIME: KNIME steht fürKonstanz In­for­ma­ti­on Miner“, ein Data-Mining-Werkzeug, das an der Uni­ver­si­tät Konstanz als freie Software ent­wi­ckelt wird und Anwendern mit einem modularen Pipeline-Konzept neben eigenen Ana­ly­se­ver­fah­ren weit­rei­chen­de In­te­gra­ti­ons­mög­lich­kei­ten für diverse Da­ta­mi­ning- und Machine-Learning-Al­go­rith­men bietet. Einzelne Schritte der Da­ten­vor­ver­ar­bei­tung (ETL), Mo­del­lie­rung, Analyse und Vi­sua­li­sie­rung lassen sich über eine grafische Be­nut­zer­ober­flä­che de­fi­nie­ren, indem die je­wei­li­gen Bausteine per Drag & Drop in den Ar­beits­be­reich gezogen und an­ein­an­der­ge­reiht werden. Ein kos­ten­lo­ser Download der Software wird von der KNIME.com AG mit Sitz in Zürich angeboten. Bei Bedarf erhalten Anwender dort auch pro­fes­sio­nel­le tech­ni­sche Un­ter­stüt­zung und Be­ra­tungs­dienst­leis­tun­gen. Das in Java ge­schrie­be­ne Programm wird als Plug-in für das Pro­gram­mier­werk­zeug Eclipse (IDE) angeboten.
  • Ra­pidMi­ner: Die Analyse-Plattform Ra­pidMi­ner des gleich­na­mi­gen Soft­ware­un­ter­neh­mens stellt Anwendern eine in­te­grier­te Umgebung für ma­schi­nel­les Lernen, Data-, Text- und Web-Mining, Stimmungs- und Zeit­ana­ly­sen sowie Vor­her­sa­ge­mo­del­le in einem Open-Core-Model zur Verfügung. Der Support umfasst alle Stufen des Data-Mining-Prozesses inklusive Da­ten­auf­be­rei­tung, Vi­sua­li­sie­rung, Va­li­die­rung und Op­ti­mie­rung. Anwendern, denen die kos­ten­lo­se Community-Version mit nur einem logischen Prozessor und einem Ana­ly­se­umfang von maximal 10.000 Da­ten­sät­zen nicht ausreicht, haben die Mög­lich­keit, ein Upgrade auf eine kos­ten­pflich­ti­ge En­ter­pri­se-Lizenz zu erwerben. Das Programm ist in Java ge­schrie­ben und bietet eine grafische Be­nut­zer­ober­flä­che, mit der sich der Analyse-Workflow bequem per Mausklick de­fi­nie­ren und ausführen lässt.
  • Weka: Bei Weka (Waikato En­vi­ron­ment for Knowledge Analysis) handelt es sich um ein Open-Source-Projekt der Uni­ver­si­tät von Waikato, Neu­see­land. Das Analyse-Werkzeug bietet Anwendern diverse Al­go­rith­men im Rahmen des ma­schi­nel­len Lernens. Neben klas­si­schen Data-Mining-Verfahren wie Klas­si­fi­ka­ti­on, As­so­zia­ti­on sowie Re­gres­si­ons- oder Cluster-Analysen enthält Weka diverse Bausteine zur Da­ten­vor­ver­ar­bei­tung und Vi­sua­li­sie­rung. Das in Java ge­schrie­be­nen Programm bietet eine grafische Be­nut­zer­ober­flä­che. Alle Soft­ware­fea­tures lassen sich jedoch auch über die Kom­man­do­zei­le ausführen. Über eine Java-Schnitt­stel­le lässt sich Weka bei Bedarf in eigene Soft­ware­lö­sun­gen in­te­grie­ren.

Be­richt­we­sen

Emp­feh­lens­wer­te Open-Source-Werkzeuge im Rahmen des Be­richt­we­sens sind BIRT und SQL Power Wabit. Diese bieten neben klas­si­schen Monats-, Quartals- und Jah­res­be­rich­ten auch Ad-hoc-Funk­tio­nen, mit denen sich relevante In­for­ma­tio­nen in Echtzeit be­reit­stel­len lassen.

  • BIRT: BIRT (Business In­tel­li­gence and Reporting Tools) ist ein Open-Source-Projekt der ge­mein­nüt­zi­gen Eclipse Foun­da­ti­on, das BI-Reporting-Funk­tio­na­li­tä­ten für Rich Clients und Web-Ap­pli­ka­tio­nen be­reit­stellt. Die Software eignet sich für java-basierte An­wen­dun­gen und deckt weite Bereiche der Da­ten­vi­sua­li­sie­rung und des Be­richt­we­sens ab. Designs für BIRT-Berichte werden in einer gra­fi­schen Be­nut­zer­ober­flä­che erstellt, die auf dem quell­of­fe­nen Pro­gram­mier­werk­zeug Eclipse basiert, und als XML-Dateien ge­spei­chert.
  • SQL Power Wabit: Mit dem Reporting-Werkzeug SQL Power Wabit erstellen Anwender Berichte auf Basis klas­si­scher Da­ten­bank­ab­fra­gen. OLAP-Würfel werden nur dann un­ter­stützt, wenn eine Be­schrei­bung der Da­ten­struk­tur vorliegt. Das Tool un­ter­stützt Stan­dard­be­rich­te, Ad-hoc-Abfragen, be­nut­zer­de­fi­nier­te Über­sichts­sei­ten und Drill-Down-Ope­ra­tio­nen im Rahmen des Online Ana­ly­ti­cal Pro­ces­sings. Mit Funk­tio­na­li­tä­ten wie einer Drag-&-Drop-Steuerung, der Ak­tua­li­sie­rung der Er­geb­nis­be­rich­te in Echtzeit, einer globalen Such­funk­ti­on und einem WYSIWYG-Editor für den Entwurf von Berichten eignet sich SQL Power Wabit auch an Anwender ohne SQL-Kennt­nis­se. Mit diesem lassen sich um­fang­rei­che Berichte bequem per Mausklick erstellen und bei Bedarf hin­sicht­lich Schrift­art, Farben und Layout in­di­vi­du­ell anpassen.

In­te­grier­te BI-Lösungen

Neben den kos­ten­pflich­ti­gen BI-Suiten eta­blier­ter Anbieter wie SAP, Oracle, IBM, SAS, HP oder Microsoft gibt es auf dem Open-Source-Markt auch Software-Projekte, die Anwendern Data-Warehousing-Lösungen als in­te­grier­te Pro­gramm­samm­lun­gen zur Verfügung stellen. Zu empfehlen sind Pentaho CE, Jas­per­soft und SpagoBI.

  • Pentaho Community Edition (CE): Die Pentaho BI Suite umfasst neben Ei­gen­ent­wick­lun­gen auch eine Reihe be­stehen­der Open-Source-Projekte, die nach und nach auf­ge­kauft und ins Pro­dukt­port­fo­lio in­te­griert wurden. Schwer­punk­te des Projekts liegen auf der Da­ten­in­te­gra­ti­on und der Au­to­ma­ti­sie­rung von Berichten. Die Pro­gramm­samm­lung umfasst:
    • Pentaho Business Analytics Platform: Die BA Platform ist eine Web-Ap­pli­ka­ti­on, die es Anwendern er­mög­licht, alle In­for­ma­tio­nen in einer zentralen Plattform zu­sam­men­zu­füh­ren.
    • Pentaho Data In­te­gra­ti­on. Bei Pentaho DI handelt es sich um das oben be­schrie­be­ne ETL-Tool.
    • Pentaho Report Designer (PRD): PRD ist eine Wei­ter­ent­wick­lung des Projekts JF­reeRe­port. Die quell­of­fe­ne Reporting-Lösung un­ter­stützt diverse Aus­ga­be­for­ma­te wie PDF, Excel, HTML, Text, Rich-Text-File, XML und CSV.
    • Pentaho Mar­ket­place: Der Mar­ket­place er­mög­licht es Anwendern, die Pentaho-Plattform per Mausklick um Plug-ins zu erweitern.
    • Pentaho Ag­gre­ga­ti­on Designer (PAD): Mit PAD erstellen und op­ti­mie­ren Anwender Da­ten­bank­in­hal­te. Herzstück des Tools bildet der OLAP-Server Mondrian.
    • Pentaho Schema Workbench (PSW): Bei PSW handelt es sich um ein gra­fi­sches Design-Interface, das es Anwendern er­mög­licht, Schemata für Mondrian OLAP-Würfel zu erstellen und zu testen.
    • Pentaho Metadata Editor (PME): PME dient der de­tail­lier­ten Be­schrei­bung der zu­grun­de­lie­gen­den Da­ten­struk­tu­ren mithilfe einer XML-Datei.

Mit Pentaho En­ter­pri­se Edition (EE) steht eine kost­pflich­ti­ge Version der BI-Suite mit er­wei­ter­tem Funk­ti­ons­spek­trum und pro­fes­sio­nel­lem Support zur Verfügung.

  • Jas­per­soft: Auch Jas­per­soft bietet ver­schie­de­ne DWH-An­wen­dun­gen in einer in­te­grier­ten BI-Lösung an. Die Pro­gramm­samm­lung umfasst:
    • Ja­sper­Re­ports Server: Der Ja­sper­Re­ports Server ist ein Be­richts­ser­ver, der OLAP-Funk­tio­na­li­tä­ten über einen an­ge­pass­ten Mondrian-Server zur Verfügung stellt.
    • Ja­sper­Re­ports Library: Zur Er­stel­lung von Berichten stellt Jas­per­soft eine Java-Bi­blio­thek zur Verfügung.
    • Jas­per­soft Studio: Mit Jas­per­soft Studio bietet die BI-Suite einen Editor für die Be­richt­erstel­lung.
    • Jas­per­soft ETL: Das auf Talend OS ba­sie­ren­de ETL-Werkzeug wurde weiter oben bereits be­schrie­ben.
    • Mobile BI: Bei Mobile BI handelt es sich um eine native App für iPhone and Android Geräte, die einen mobilen Zugriff auf Berichte und Da­sh­boards zur Verfügung stellt.

Auch Jas­per­soft steht mit er­wei­ter­tem Funk­ti­ons­spek­trum in einer kos­ten­pflich­ti­gen, kom­mer­zi­el­len Version zur Verfügung.

  • SpagoBI: Anders als Pentaho und Jas­per­soft, die ihre Produkte mit einem dualen Li­zenz­sys­tem ver­mark­ten, bietet die In­itia­ti­ve Spa­go­World ihre BI-Suite aus­schließ­lich als Open-Source-Lösung an. En­ter­pri­se-Anwender haben jedoch die Mög­lich­keit, eine pro­fes­sio­nel­le Ein­rich­tung und Anpassung der Software als kos­ten­pflich­ti­ge Dienst­leis­tung in Anspruch zu nehmen. Die Pro­gramm­samm­lung umfasst folgende Kom­po­nen­ten:
  • SpagoBI Server: Kern der quell­of­fe­nen BI-Suite ist der SpagoBI-Server, der sämtliche Ana­ly­se­tool- und Funk­tio­na­li­tä­ten be­reit­stellt.   
  • SpagoBI Studio: Bei SpagoBI Studio handelt es sich um eine in­te­grier­te Ent­wick­lungs­um­ge­bung.
  • SpagoBI Meta: SpagoBI Meta bietet Anwendern eine Umgebung für das Metadaten-Ma­nage­ment.
  • SpagoBI SDK: Mit SpagoBI SDK verfügt die Spago-BI-Suite über eine In­te­gra­ti­ons­schicht, die es er­mög­licht, diverse externe Tools ein­zu­bin­den: bei­spiels­wei­se Talend OS (ETL), Jedox oder Mondrian (OLAP), Weka oder R (Da­ta­mi­ning) sowie BIRT oder Ja­sper­Re­ports Library (Be­richt­we­sen).  

Da­ten­hal­tung

Auch im Bereich der Da­ten­hal­tung stehen Anwendern diverse Al­ter­na­ti­ven zu pro­prie­tä­ren Da­ten­bank­ma­nage­ment­sys­te­men wie Microsoft SQL Server, IBM DB2 oder Lösungen von Oracle und Teradata als quell­of­fe­ne Software-Projekte zur Verfügung. Als zentraler Da­ten­spei­cher bieten sich die re­la­tio­na­len Da­ten­bank­sys­te­me MySQL und MariaDB oder das ob­jekt­re­la­tio­na­le DBMS Post­greS­QL an. Letzt­ge­nann­tes wird von Pivotal unter dem Namen Greenplum Database als op­ti­mier­te Wei­ter­ent­wick­lung speziell für Data-Warehouse-Ar­chi­tek­tu­ren unter Open-Source-Lizenz angeboten.

Fazit: Data-Warehousing im Mit­tel­stand

Data-Warehousing ist im Mit­tel­stand an­ge­kom­men. Der Markt für BI-Lösungen und Data-Warehouse-Systeme bietet neben kost­spie­li­gen En­ter­pri­se-Lösungen eine breite Palette brauch­ba­rer Open-Source-Projekte. Für kleine und mittlere Un­ter­neh­men sinkt damit vor allem die fi­nan­zi­el­le Hürde, die mit einem Einstig Welt der Big-Data-Analysen verbunden ist.

Das BMWI empfehlt Anwendern aus dem Mit­tel­stand, bei der Ein­füh­rung von BI-Lösungen zunächst das Be­richts­we­sen ins Visier zu nehmen. Erste Mehrwerte erzielen Un­ter­neh­mer durch das Zu­sam­men­füh­ren be­stehen­der Daten bereits mit über­schau­ba­ren Ausgaben. Treten im Zuge der Aus­wer­tung Lücken im Da­ten­be­stand zutage, sollte im nächsten Schritt die Re­or­ga­ni­sa­ti­on der Da­ten­er­fas­sung mithilfe der hier vor­ge­stell­ten ETL- oder OLAP-Werkzeuge ins Visier genommen werden. Den Abschluss der In­te­gra­ti­on einer Data-Warehouse-Ar­chi­tek­tur in die jeweilige IT-In­fra­struk­tur bilden Data-Mining-Werkzeuge, die durch wei­ter­ge­hen­de Analysen (z. B. Wa­ren­korb­ana­ly­sen) neue Trends und Quer­ver­bin­dun­gen aufzeigen können und damit wichtigen Input für stra­te­gi­sche Ent­schei­dun­gen liefern.

Mit­tel­ständ­ler, die den Aufbau eines Data-Warehouse ins Auge fassen, sollten von Anfang an auf eine da­ten­schutz­kon­for­me Umsetzung der je­wei­li­gen BI-Strategie achten.

Zum Hauptmenü