Datenerfassungsebene
Bevor Daten ins DWH geladen werden können, müssen die oft sehr heterogenen Informationen in eine einheitliche Darstellungsform überführt werden. Ein DWH speist sich sowohl aus internen Datenquellen eines Unternehmens als auch aus relevanten externen Datenquellen:
- Interne Daten: Operative Systeme: Enterprise-Resource-Planning-Systeme (ERP), Customer-Relationship-Management-Systeme (CRM); operative Datenbanken; Content-Management-Systeme (CMS); Flat-Files (z. B. Excel, CSV, Text-Dateien), Mails etc.
- Externe Daten: Anwendungen und Systeme externer Dienstleister, Websites/Internet, Social Media, Cloud-Services etc.
Systeme auf der Datenerfassungsebene stellen Schnittstellen zu den operativen Systemen eines Unternehmens bereit und kommen in der ersten Phase des Data-Warehousings zum Einsatz: Zentrale Funktionen dieser DWH-Komponente sind Datenbeschaffung und Datenintegration
Im Rahmen der Datenbeschaffung kommen folgende Extraktionstechniken zum Einsatz:
- Trigger: Sofern die operativen Systeme eines Unternehmens Datenbanktrigger unterstützen, lassen sich diese einsetzen, um die Datenextraktion zu automatisieren. Trigger ermöglichen es, Operationen zu definieren, die beim Eintreffen bestimmter Ereignisse automatisch ausgeführt werden. In der Regel handelt es sich bei den auslösenden Ereignissen um Änderungen im Datenbestand der Quellensysteme, die zu einer Extraktion der modifizierten Daten in das DWH führen.
- Protokolldateien: Unterstützt ein operatives System die Trigger-Technologie nicht, kann die Datenerfassungsebene eines DWH Programme beinhalten, die in der Lage sind, die Protokolldateien (Logs) der Quellsysteme auszuwerten und die darin aufgezeichneten Operationen zu extrahieren.
- Monitorprogramme: Stehen für die Extraktion weder Trigger noch Protokolldaten zur Verfügung, kommen in der Regel Monitorprogramme zum Einsatz. Diese extrahieren Änderungen im Datenbestand eines operativen Systems anhand von Algorithmen, die in regelmäßigen Abständen Abbildungen (Snapshots) der zu überwachenden Daten erstellen und mit vorherigen abgleichen.
Wird keine der beschriebenen Techniken unterstützt, da der Zugriff auf den Datenbestand des operativen Systems nicht möglich ist, muss dieses Änderungen selbständig protokollieren und relevante Modifikationen an das Data-Warehouse übermitteln.
Die meisten DWHs stellen im Rahmen der Datenintegration OLAP-Funktionalitäten zur Verfügung, die es ermöglichen, Daten in mehrdimensionalen Strukturen darzustellen. Online Analytical Processing (OLAP) ist eine Analysemethode, die der Verdichtung managementrelevanter Unternehmensdaten dient. Das Verfahren beruht auf dem ETL-Prozess:
- E = Extraction: Die Datenextraktion umfasst das Auslesen relevanter Informationen aus verschiedenen Datenquellen. Das kann als Push- oder Pull- Strategie realisiert werden. Erfolgt die Datenextraktion im Rahmen einer Push-Strategie, werden Datenquellen dazu angehalten, in regelmäßigen Abständen Extrakte zu erzeugen und diese an das DWH zu übermitteln. Im Fall einer Pull-Strategie stößt das DWH die Datenextraktion von sich aus an.
- T = Transformation: Die extrahierten Daten werden im Rahmen einer Transformation bereinigt und einheitlich in das Format der Zieldatenbank übersetzt.
- L = Loading: Die Ladephase umfasst das Abspeichern der transformierten Daten in die jeweiligen Zieldatenbanken des DWH.
Die Datenerfassungsebene eines DWH kann eine sogenannte Staging Area beinhalten (auch Arbeitsbereich genannt). Dabei handelt es sich um einen temporären Bereich der Datenbank, in dem die Vorverarbeitung der zu ladenden Daten stattfindet. Ein solches Staging kann vor allem bei komplexen ETL-Prozessen erforderlich sein.
Da im DWH Daten unterschiedlichster Quellen zusammengeführt werden, stützt sich die Datenintegration auf diverse Werkzeuge, die eine Transformation und Bereinigung der extrahierten Daten ermöglichen. Diese lassen sich folgenden Kategorien zuordnen.
- Data-Migration-Werkzeuge: Programme für die Datenmigration ermöglichen es, einfache Transformationsregeln zu definieren, um heterogene Ausgangsdaten in ein einheitliches Zielformat zu überführen.
- Data-Scrubbing-Werkzeuge: Im Rahmen des Data-Scrubbings kommen Programme zum Einsatz, die sich auf den Fuzzy-Logic-Ansatz und Neuronale Netze stützen. Ziel ist die Verbesserung der Datenqualität, indem Fehler, Lücken und Wiederholungen in Datensätzen durch vordefinierte Regeln, Algorithmen oder Lookup-Tables (LUT) ausgebessert werden. Man spricht in diesem Fall auch von Quality Management.
- Data-Auditing-Werkzeuge: Data-Auditing-Werkzeuge kommen im Rahmen der Datenintegration zum Einsatz, um Regeln und Beziehungen zwischen Daten zu ermitteln. Zudem ermöglichen Programme dieser Art, Daten zu identifizieren, die gegen die ermittelten Regeln verstoßen und somit voraussichtlich fehlerhaft sind.
Auf die Datenintegration folgt die Übernahme der extrahierten Daten in die zentrale Datenbank, das sogenannte Core-Data-Warehouse. Unterstützt wird dieser Schritt durch Programme, die folgende Funktionen zur Verfügung stellen:
- Integritätsbedingungen prüfen
- Daten sortieren
- Aggregationen berechnen
- Zugriffsstrukturen berechnen
- Daten für einen effizienten Zugriff partitionieren