Dark Data

Im Informationszeitalter werden von Organisationen laufend massenweise Daten erhoben. Doch in den meisten Fällen werden die gesammelten Daten abgespeichert, ohne ausgewertet zu werden. Diese zwar vorhandenen, aber nicht genutzten Daten bezeichnet man als Dark Data.

IONOS Cloud Compute Engine

Mittelständische und große Unternehmen wählen die Cloud Made in Germany. IaaS und PaaS vom Hidden Champion für Hidden Champions.

Sicher
Zuverlässig
Flexibel

Was versteht man unter Dark Data?

Unter Dark Data versteht man Daten, welche der Einsicht oder dem Zugriff einer Organisation entzogen sind. Dabei kann es sich um Daten handeln, welche unvollständig sind, nicht ausgewertet wurden, im Verborgenen existieren oder (noch) gar nicht erfasst werden. Essentiell für unser Verständnis des Begriffs ist, dass dieser relativ ist. Ob Daten „Dark“ sind, oder nicht, hängt vom Verhältnis der Daten zu einer bestimmten Organisation ab.

Besonders offensichtlich ist Dark Data im Zusammenhang mit Big Data-Management. Oftmals werden kontinuierlich so viele Daten erzeugt, dass diese nicht rechtzeitig verarbeitet und ausgewertet werden können. In den Worten des britischen Statistikers David Hand:

Zitat

„In Zeiten von Big Data ist es einfach zu denken, wir hätten alle Informationen, die wir brauchen, um gute Entscheidungen zu treffen. In der Tat sind die Daten jedoch nie vollständig und stellen vielleicht nur die Spitze eines Eisbergs dar.“

(„In the era of big data, it is easy to imagine that we have all the information we need to make good decisions. But in fact the data we have are never complete, and may be only the tip of the iceberg.“)

- David Hand

Betrachten wir vier konkrete Szenarien. Dark Data sind:

  1. Daten, deren Existenz unbekannt ist
  2. Daten, welche mit Unsicherheiten belegt sind
  3. Daten, die ungenutzt aufbewahrt werden
  4. Daten, welche noch gar nicht erfasst wurden

In allen vier Szenarien differenzieren wir weiterhin zwei distinkte Fälle:

  1. Der Organisation ist bekannt, dass Daten fehlen, bzw. unvollständig oder mit einer Unsicherheit belegt sind.

Dieser Fall ist weniger problematisch. Besteht ein Bewusstsein, dass die vorliegenden Daten vielleicht nur die Spitze eines Eisbergs darstellen, kann die Organisation gegensteuern. Man kann versuchen, komplettere Daten zu erlangen, oder die vorliegenden Daten mit Hinblick auf Unsicherheiten bewerten.

  1. Der Organisation ist nicht bekannt, dass Daten fehlen, bzw. es wird angenommen, die vorliegenden Daten seien vollständig.

Dieser Fall ist gefährlicher. Wird angenommen, man hätte auf Grund der vorliegenden Daten ein vollständiges Bild der Sachlage, operiert die Organisation entgegen der Realität. Aus lückenhaften Daten gezogene Schlüsse führen zu suboptimalen Entscheidungen.

In Zeiten von Big Data und Data Mining sind Organisationen bestrebt, alles aus den Daten herauszuholen.

Was sind eigentlich Daten?

Der Begriff Daten ist seit der explosionsartigen Verbreitung der Informationstechnologie in aller Munde. Von Politikern, Wirschaftsvertretern und Wissenschaftlern gleichermaßen gerne genutzt, bleibt der Begriff für viele Menschen nebulös. Denn Daten sind nicht-physischer Natur – es handelt sich um ein abstraktes Konzept.

Daten sind nicht gleich Informationen

Zunächst halten wir fest: Bei Daten handelt es sich um eine Erscheinungsform der Information. In der Tat sind Daten die kleinsten Bausteine, aus denen sich Informationen zusammensetzen. In etwa so, wie Atome die kleinsten Bausteine der Materie, oder Photonen die kleinsten Bausteine der Energie darstellen.

Hinweis

Wir benutzen hier den Begriff „Information“ als abstrakten Begriff, wie Materie und Energie. Wenn wir von Informationen im Plural sprechen, meinen wir konkrete Ausprägungen.

Jedes Datum ist für sich genommen bedeutungslos. Erst die Interpretation mehrerer Daten ergibt eine nutzbare Information. Stellen Sie sich zum Verständnis Daten als einzelne Buchstaben vor. Ein einzelner Buchstabe, beispielsweise der Buchstabe ‚A‘ hat an sich keine Bedeutung. Erst wenn mehrere Buchstaben kombiniert werden, ergibt sich ein Wort, z. B. „Apfel“. Hier ist zudem die Reihenfolge entscheidend — oder können Sie etwas mit dem Wort „eflAp“ anfangen?

Bei Informationen handelt es sich also um in Strukturen zusammengefasste, voneinander abgegrenzte Daten. Dabei ist der Prozess der Interpretation vom Kontext abhängig. Das bedeutet, dass eine Reihe von Daten verschieden interpretiert werden kann, wobei sich ggf. mehrere Bedeutungen ergeben. Denken Sie wieder an das Wort „Apfel“. Anstatt die einzelnen Buchstaben zu einem Wort zusammenzufassen, könnten wir die Buchstaben zählen. Heraus käme eine andere, auf denselben Daten basierende Information.

Stellen wir uns die Gesamtheit der Daten einer Organisation als Berg vor. Dann stellt sich die Herausforderung, aus dem Datenberg nützliche Informationen herauszuschürfen. Im Gegensatz zu einem physischen Berg, bei dem Wertstoffe durch die Extraktion verloren gehen, lässt sich aus einem Datenberg prinzipiell mehrmals nützliches herausholen. Es kommt dabei jeweils auf den Kontext und die Perspektive an.

Die Hierarchie der Information

Wenn Informationen sich aus Daten zusammensetzen, wie Materie aus Atomen, ist es naheliegend anzunehmen, dass weitere, übergeordnete Strukturen existieren. Tatsächlich gibt es eine Hierarchie der Information: ganz unten liegen die Daten, dann folgen Informationen und im Anschluss — das Wissen.

Beim Wissen handelt es sich um verknüpfte Informationen. Dabei kommt es zu einer Gewichtung der einzelnen Informationen. Manche sind primär, andere sekundär. Ausschlaggebend für das Wissen ist das Konzept der Referenz, welches man heutzutage als (Hyper)-Link kennt: eine Information, welche auf eine andere Wissenseinheit verweist. Beispiele für Wissen sind Wikipedia-Einträge, Rezepte und dokumentierte Prozesse.

Aufbauend auf dem Wissen folgt die Intelligenz. Sie erlaubt, aus erlerntem Wissen und gesammelten Erfahrungen Schlüsse zu ziehen und Muster zu erkennen. Durch das Aufstellen und Testen von Hypothesen wird neues Wissen synthetisiert. Ausschlaggebend für die Intelligenz sind ausführbare Information, oder anders gesagt: Code. Dabei kann es sich um Algorithmen oder Heuristiken handeln. Wohingegen Daten, Informationen und Wissen inert vorliegen, benötigt Intelligenz eine Ausführungsumgebung. Zellen, Organismen, Computer und Netzwerke sind allesamt Systeme, welche Intelligenz aufweisen.

Die höchste Ebene in der Informations-Hierarchie ist Weisheit. Bei der Weisheit handelt es sich um die Gesamtheit von Wissen und Intelligenz. Weisheit erlaubt das Bewerten verschiedener Wege um ausgeglichene Lösung zu finden. Die interessanten Fragen sind weniger „Was“ (Daten, Informationen) oder „Wie“ (Wissen, Intelligenz), sondern „Warum“ und „Wozu“. Ein gutes Beispiel für Weisheit ist eine Bibliothek. Diese umfasst nicht nur Wissen in Form der Bücher und sonstiger Medien, sondern auch Intelligenz in Form der Mitarbeiter und Indexsysteme.

White Paper: New Work in the Cloud

In unserem White Paper “New Work in the Cloud” erfahren sie mehr darüber, wie sie mit ihrem Unternehmen sicher, souverän, kollaborativ und jederzeit skalierbar in der Cloud arbeiten.

Wie entsteht Dark Data?

Organisatorische Prozesse, welche durch moderne Methoden der Informationsverarbeitung unterstützt werden, produzieren laufend Daten. Bei einem gewissen Anteil der Daten wird es sich um Dark Data handeln. Entweder geht die Information, dass Daten existieren, verloren, oder fehlt von vornherein. Oder das Wissen, wie Daten ausgewertet werden können, ist nicht vorhanden.

Dark Data fällt in vielerlei Form an. In den Worten des Marketing-Experten Sky Cassidy:

Zitat

„Dark Data sind all die Daten, welche Unternehmen im Rahmen der normalen Geschäftsprozesse sammeln und aufbewahren, ohne vorzuhaben, die Daten auszuwerten. Dazu gehören Web-Logdateien, Website-Besuchs-Statistiken, Aufnahmen aus Überwachungskameras, E-Mail-Korrespondenz ehemaliger Angestellter und vieles mehr.“

(„So as for Dark Data, it’s all the information companies collect in their regular business processes, don’t use, have no plans to use, but will never throw out. It’s web logs, visitor tracking data, surveillance footage, email correspondences from past employees, and so much more.“)

- Sky Cassidy

Dark Data entsteht durch vergessene oder nicht mehr zugängliche Daten

Eine große Klasse von Dark Data besteht aus Daten, auf die kein Zugriff mehr besteht. Dabei kann es sich um vergessene oder nicht mehr zugängliche Daten handeln.

Mitarbeiter speichern kontinuierlich Daten auf ihren privaten und betrieblichen Geräten. Es kommt schnell dazu, dass diese Daten in Vergessenheit geraten und zu Dark Data werden. Daten auf USB-Sticks und portablen Festplatten, sowie den internen Datenträgern ausgemusterter Desktop- und Mobilgeräte gehören ebenso dazu, wie Daten in Anhängen von E-Mails und ungenutzten Datenbanken.

Die geradezu endlose Skalierbarkeit ist einer der Vorteile des Cloud Computing – aber gleichzeitig auch ein Fluch. Denn mit Hilfe von Cloud-Speichern ist es möglich, immer weiter Daten anzusammeln, ohne dabei an eine feste Grenze zu stoßen. Dies verleitet Mitarbeiter zum unbegrenzten Sammeln jeglicher Daten. Findet die Sammelwut außerhalb streng reglementierter Prozesse statt, ist das Ergebnis in der Regel Dark Data.

Werden Daten digital gespeichert, muss dies mit Hinblick auf Sicherheit und Datenschutz geschehen. Daten werden verschlüsselt, Systeme durch Autorisierung geschützt. Was jedoch, wenn das Login-Passwort vergessen wurde, oder sich der Schlüssel nicht mehr auffinden lässt? In beiden Fällen kommt es dazu, dass auf die Daten kein Zugriff mehr besteht; der Blick auf die enthaltenen Informationen erlischt.

Aber es gibt noch eine andere Gefahr, den Zugriff auf eigentlich vorliegende Daten zu verlieren. Dazu kann es dann kommen, wenn die Daten in nicht mehr zugänglichen Form vorliegen. Handelt es sich etwa um ein proprietäres Dateiformat, wird ggf. ein spezielles Programm zum Auslesen benötigt. Jedoch kann es sein, dass sich das Programm nicht mehr betreiben lässt, bzw. nicht mehr in der benötigten Version vorliegt. So bleiben die Daten im Vendor Lock-In gefangen.

Dark Data entsteht durch unvollständige oder veraltete Daten

Bei Dark Data handelt es sich nicht nur um Daten, auf die kein Zugriff mehr besteht. Auch unvollständige oder veraltete Daten zählen dazu. Lassen wir wieder den Statistiker David Hand zu Worte kommen:

Zitat

„Dark Data sind Daten, die einem fehlen. Es kann sein, dass man die Daten von heute möchte, aber man hat nur die von gestern. Vielleicht liegt eine verzerrte Stichprobe vor, oder es fehlen bestimmte Fälle in den Daten. Oder die gemessenen Werte sind ungenau — denn ein perfektes Messinstrument gibt es nicht.“

(„Dark Data are data you don't have. This might be because you want today's data, but all you have is yesterday's. It might be because your sample is distorted, perhaps certain types of cases are missing. It might be because the recorded values are inaccurate – after all, no measurement instrument is perfect.“)

- David Hand

Erinnern wir uns, dass Daten die unterste Ebene der Informations-Hierarchie ausmachen. Ungenauigkeiten und Abweichungen der Daten manifestieren sich in den höheren Informations-Ebenen. Dabei kommt es in der Regel zu Kaskaden-Effekten: kleine Abweichungen führen zu großen Änderungen. So können lückenhafte Daten gravierende Auswirkungen haben.

Ähnlich verhält es sich mit veralteten Daten. Denken wir beispielsweise an die Geolocation eines Nutzers, welche als Teil eines Datensatzes gespeichert wird. Da sich die Geolocation mit der Bewegung des Nutzers ständig ändert, ist die enthaltene Information ggf. nur dann nützlich, wenn die Daten in Echtzeit ausgewertet werden. Möchte man einem Nutzer beispielsweise ein ortsabhängiges Angebot machen, muss dies geschehen, solange der Nutzer noch vor Ort ist.

Dark Data entsteht durch nicht ausgewertete Daten

Eine große Klasse von Dark Data besteht in erfassten und gespeicherten, jedoch nicht ausgewerteten Daten. Ein besonders hohes Volumen an Dark Data stammt aus Quellen, welche automatisiert Daten erzeugen. Dazu gehören Sensoren, sowie Logdateien und Besuchs-Statistiken von Websites. Die erzeugten Daten werden oft für längere Zeiträume gespeichert, ohne dass die darin enthaltenen Informationen extrahiert und ausgewertet würden.

Manche Daten liegen in Formaten vor, welche aufwendige Verfahren zur Auswertung benötigen. Dazu gehören in Bild-Dateien enthaltene Texte, wie auch gesprochenes Wort in Audio-Dateien. Generell enthalten digitale Bilder eine Fülle an Informationen, die sich automatisiert nur mit modernen Methoden der künstlichen Intelligenz erschließen lassen. Mit Mustererkennung und Klassifizierung werden in Bilddaten abgebildete Objekte identifiziert und zugeordnet. Da es sich noch um relativ neue Ansätze handelt, dürfte der Großteil des weltweit gespeicherten Bildmaterials Dark Data enthalten.

In einem weiteren Fall entsteht Dark Data durch vorhandene, aber nicht ausgewertete Daten. Nämlich dann, wenn die Daten lediglich im Zuge der Revisionssicherheit gespeichert und aufbewahrt werden, ohne dass ein Wille bestände, die Daten auszuwerten. Treffend bringt Statistiker David Hand das Problem auf den Punkt:

Zitat

„Es kann sogar sein, dass die Daten vorhanden sind, aber unberücksichtigt bleiben. Sie verroten unbeachtet in einem riesigen Daten-Lagerhaus vor sich hin, da sie lediglich aus Compliance-Gründen erfasst wurden.“

(„It might even be that the data are available, but unexamined, gently decaying in a giant data warehouse, unlooked at because they were collected purely for compliance reasons.“)

- David Hand

Dark Data entsteht durch noch nicht erfasste Daten

Neben den bereits besprochenen Formen der Dark Data gibt es noch eine weitere. Diese ist eher theoretischer Natur, denn es handelt sich um Daten, welche noch gar nicht erfasst worden sind. Natürlich liegen diese (noch gar nicht existierenden) Daten außerhalb der Sicht der Organisation. Daher zählen sie ebenfalls zu Dark Data.

Statistiker David Hand zieht eine Analogie zur aus der Astrophysik bekannten „dunklen Materie“:

Zitat

„Genau so, wie das Universum zu einem großen Teil aus dunkler Materie besteht, welche für uns unsichtbar, aber dennoch präsent ist, ist das Informations-Universum voller Dark Data, welche wir auf unsere eigene Gefahr hin übersehen.“

(„Just as much of the universe is composed of dark matter, invisible to us but nonetheless present, the universe of information is full of Dark Data that we overlook at our peril.“)

-David Hand

Warum ist Dark Data ein Problem?

Dark Data ist ein Problem für Unternehmen und andere Organisationen. Dafür gibt es einige Gründe. Wir besprechen hier nur Fälle, in denen tatsächlich Daten vorliegen. Fälle, in denen die Daten noch gar nicht existieren, klammern wir aus.

Dark Data aufzubewahren ist ineffizient

Die Speicherung jeglicher Daten benötigt Ressourcen. Dazu gehören insbesondere Speicherplatz und Energie auf Seiten des Speicher-Betreibers. Dies verursacht Kosten auf Seiten der Organisation, welche die Daten ihr Eigen nennt. Es wird also Aufwand betrieben, um die Daten aufzuheben.

Die Effizienz ist definiert als Quotient von Nutzen und Aufwand. Zieht man bei geringem Aufwand einen hohen Nutzen, spricht man von einer hohen Effizienz. Ein geringer Nutzen bei hohem Aufwand bedeutet hingegen, dass die Effizienz niedrig ist.

Effizienz = Nutzen / Aufwand

Daten sollen eigentlich von Nutzen sein. Bei Dark Data ist der tatsächliche Nutzen begrenzt. Dennoch muss zur Aufbewahrung der Daten kontinuierlich Aufwand betrieben werden. Folglich ist die Speicherung von Dark Data ineffizient.

Man findet die Informations-Nadel im Dark Data-Heuhaufen nicht

Stellen wir uns die Gesamtheit der Daten einer Organisation als Eisberg vor. Dann handelt es sich beim Großteil der Daten um Dark Data. Leider ist es nicht so, dass sich die nützlichen Daten an der Oberfläche sammeln. Vielmehr sind diese mit Dark Data vermischt und lassen sich nicht einfach auftrennen. Um nützliche Daten zu finden, muss man den gesamten Berg durchsuchen.

Durch die schiere Masse an Dark Data bleiben an sich nützliche Informationen im Verborgenen. Oft ist nicht klar, ob Daten überhaupt von Wert sind. Fehlende oder fehlerhafte Daten führen zu inkorrekten Informationen. So beeinflusst Dark Data, welche Schlüsse aus den vorliegenden Informationen gezogen werden. Dies schränkt ein, wie intelligent sich die Organisation verhalten kann.

Niemand weiß, was alles in Dark Data steckt

Dark Data ist per definitionem undurchsichtig. Man kann sich nie sicher sein, ob nicht doch nützliches enthalten ist. Ebenfalls lässt sich nicht ausschließen, dass die Daten sensible Informationen enthalten, welche nicht in die falschen Hände gelangen dürfen.

Daten werden in der Regel für längere Zeiträume gespeichert. Dabei hat Dark Data für die Organisation nur einen geringen Nutzen. So besteht oft eine mangelnde Motivation, die Daten abzusichern. Ungenutzt gespeicherte Daten geraten leicht ins Vergessen. Dies macht es wahrscheinlicher, unzureichend gesicherte Dark Data vorzufinden.

Prinzipiell können Daten immer Informationen umfassen, die besonderem Schutz unterliegen. Zumeist sind einzelne Daten harmlos; hingegen lassen sich aus Datenmengen ggf. sensible Informationen extrahieren. Beispielsweise lassen sich aus über längeren Zeiträumen erhobenen Ortsdaten Bewegungsprofile erstellen. Beim Verlust von Dark Data droht also ein hohes Risiko von Schäden.

Neben dem Ausleiten sensibler Daten gibt es ein weiteres Risiko im Zusammenhang mit Dark Data. Denn diese Daten werden evtl. nach einem Störungsfall bei der Disaster Recovery nicht wiederhergestellt. Stellen wir uns ein System vor, welches sauber lief. Man dachte, alle Komponenten seien bekannt, hält von diesen Komponenten Cloud-Backups vor. Was niemand wusste: eine der Komponenten bestand aus Dark Data. Bei der Wiederherstellung des Systems fehlt ein kritischer Teil. Im schlimmsten Fall droht in der Folge der Ausfall wichtiger Systeme.

Managed Nextcloud von IONOS

IONOS bietet Ihnen zusätzlich zu einer leistungsstarken Cloud-Infrastruktur einen maßgeschneiderten Support für Managed Nextcloud.

Datensouveränität
Managed Service
File-Sharing

Dark Data lässt sich schwer entsorgen

Ein Datenberg ist nur schwer zu überblicken. Vorliegende Dark Data könnte nützliche oder sensible Informationen enthalten. Ggf. sind für die Aufbewahrung der Daten bestimmte Lagerfristen vorgeschrieben. So ist es nicht ohne weiteres möglich, die Daten zu entsorgen.

Vergleichbar ist dieser Zustand in etwa mit Sondermüll, der sich nur schwer oder gar nicht auftrennen lässt. Enthält eine Tonne Müll ein Gramm hochgiftiges Material, wird die ganze Tonne als Sondermüll behandelt. Also werden die Daten weiter aufgehoben, der Datenberg wächst immer weiter an. Damit steigen auch die bei der Speicherung anfallenden Kosten.