Nicht erst seit gestern ist der Begriff Big Data in aller Munde und wird kon­tro­vers dis­ku­tiert. Während Be­für­wor­ter den großen Nutzen der durch Di­gi­ta­li­sie­rung ent­stan­de­nen Mas­sen­da­ten betonen, äußern Kritiker immer lauter ihre Da­ten­schutz­be­den­ken. Und spä­tes­tens seit „Whist­le­b­lower“ Edward Snowden und der Of­fen­le­gung diverser Spionage- und Über­wa­chungs­prak­ti­ken hat auch der private Nutzer Angst um seine per­sön­li­chen Daten. Was Bürger im Kontext mit Big Data hören und lesen, ist deshalb meist negativ besetzt. Dabei umfasst dies nur einen kleinen Aspekt von dem, was Big Data per De­fi­ni­ti­on bedeutet.

Was ist Big Data?

„Big Data“ (= Mas­sen­da­ten) meint eine Da­ten­men­ge, die so komplex ist, dass mit ihr her­kömm­li­che Soft- und Hardware auf den klas­si­schen Wegen der Da­ten­ver­ar­bei­tung nicht mehr umgehen kann. Big Data ist an sich ein wert­frei­er Begriff, denn er kann sich z. B. auch auf un­ver­fäng­li­che Da­ten­men­gen aus der Forschung beziehen. Doch weil die ge­sam­mel­ten Daten auch per­so­nen­be­zo­gen sein können, etwa das Kom­mu­ni­ka­ti­ons- oder Kon­sum­ver­hal­ten von In­ter­net­nut­zern, ist der Begriff oft negativ kon­no­tiert. Kritiker sehen durch die Sammlung und vor allem Aus­wer­tung dieser Daten Per­sön­lich­keits­rech­te verletzt.

Tech­no­lo­gien für souveräne Da­ten­nut­zung
Da­ten­ma­nage­ment mit der IONOS Cloud Big Data Plattform

Offene Standards für un­ter­schied­li­che Szenarien und Ar­chi­tek­tu­ren: Die flexiblen Big Data Lösungen von IONOS Cloud basieren auf Open Source Software, sind 100-prozentig da­ten­schutz­kon­form und schützen vor Vendor Lock-in.

Wie groß ist Big Data?

Der Begriff „Big Data“ bezieht sich nicht auf eine bestimmte Menge an Daten. Es gibt keine fest de­fi­nier­te Grenze, ab der Mas­sen­da­ten als Big Data zu be­zeich­nen sind. In der Praxis wird der Begriff aber oft als Synonym für Größen gewählt, die nicht mehr in Gigabyte zu messen sind.

Wie entsteht Big Data?

Der Da­ten­um­fang hat immense Ausmaße an­ge­nom­men: Die Menge an Daten, die die Mensch­heit von Beginn an bis ins Jahr 2002 an­ge­sam­melt hat, entstand 2014 schon innerhalb von nur zehn Minuten. Laut Prognosen wird dieser Datenberg weiter steigen und sich weltweit im Zwei­jah­res­takt ver­dop­peln. Die Datenflut ergibt sich durch die steigende Di­gi­ta­li­sie­rung aller Le­bens­be­rei­che. Big Data entsteht dabei durch das Zu­sam­men­füh­ren ver­schie­de­ner Da­ten­quel­len wie:

  • mobile In­ter­net­nut­zung
  • Social Media
  • Geo-Tracking
  • Cloud Computing
  • Vi­tal­da­ten-Messung
  • Media-Streaming

Spricht man von Big Data, sind in der Regel nicht nur die Daten selbst, sondern auch deren Analyse und Nutzung gemeint. Man versucht Muster und Zu­sam­men­hän­ge zu finden und in den richtigen Kontext zu bringen. Die Her­aus­for­de­rung dabei ist nicht nur das riesige Da­ten­vo­lu­men, sondern auch die Da­ten­ge­schwin­dig­keit und die Vielfalt der In­for­ma­tio­nen. Die Daten strömen un­un­ter­bro­chen in einen un­struk­tu­rier­ten Pool. Sie sollen erfasst, ge­spei­chert und ver­ar­bei­tet werden, wenn möglich in Echtzeit. Um die Daten richtig lesen und in Zu­sam­men­hang bringen zu können, bedarf es einer aus­ge­feil­ten Da­ten­in­fra­struk­tur.

Wie gehe ich mit Big Data um?

Laut Big-Data-De­fi­ni­ti­on sind die Da­ten­men­gen so um­fang­reich, dass normale Software schlicht­weg über­for­dert ist und die übliche Technik die Menge nicht effizient ver­ar­bei­ten kann. Beim Umgang mit Mas­sen­da­ten stellen sich also besondere tech­ni­sche An­for­de­run­gen an die ver­wen­de­te Software. Nur spezielle Frame­works können die Daten ana­ly­sie­ren. Die Software muss dafür möglichst viele Da­ten­sät­ze auf einmal ver­ar­bei­ten und große Da­ten­men­gen schnellst­mög­lich im­por­tie­ren können. Außerdem sollte die Software die Da­ten­men­gen für den Anwender möglichst in Echtzeit zur Verfügung stellen und wenn nötig auch mehrere Da­ten­bank­an­fra­gen gleich­zei­tig be­ant­wor­ten können.

Eine bekannte Open-Source-Lösung stellt z. B. Hadoop zur Verfügung. Wegen der hin­rei­chend komplexen Im­ple­men­tie­rung ist diese jedoch meist nicht ohne die Hilfe von Experten, so­ge­nann­ten Data Scientist, möglich. Zum Einstieg in den Bereich Big Data eignen sich aber auch Lösungen aus der Cloud. Ver­schie­de­ne Anbieter werden in diesem Artikel vor­ge­stellt.

Beispiele von Big-Data-Nutzung

Big Data wird in den un­ter­schied­lichs­ten Le­bens­be­rei­chen an­ge­wen­det. Auch ganz all­täg­li­che Dinge, die fast jeder In­ter­net­nut­zer kennt, basieren darauf. Ein Beispiel für Big-Data-Aus­wer­tung aus dem Bereich On­line­shop­ping: Wer schon einmal im Internet ein­ge­kauft hat, kennt die Rubrik „Kunden, die das Produkt XY kauften, kauften auch“. Diese Emp­feh­lun­gen entstehen aus der Aus­wer­tung von Millionen von Kaufdaten anderer Kunden.

Weitere Bereiche, in denen man von Big Data pro­fi­tiert:

  • Me­di­zi­ni­sche Forschung: Durch die Aus­wer­tung von Mas­sen­da­ten können Mediziner die besten The­ra­pie­lö­sun­gen und -pläne für Patienten finden.
  • Industrie: Dank der Nutzung eigener Ma­schi­nen­da­ten können Un­ter­neh­men die Effizienz ihrer Pro­duk­ti­on steigern und so nach­hal­ti­ger arbeiten.
  • Wirt­schaft: Big Data er­mög­licht es Un­ter­neh­men, ihre Kunden besser ken­nen­zu­ler­nen und Angebote besser auf diese ab­zu­stim­men.
  • Energie: Um den En­er­gie­ver­brauch auf in­di­vi­du­el­le Be­dürf­nis­se zu­zu­schnei­den, muss man diese Be­dürf­nis­se kennen. Erhobene Ver­brauchs­da­ten sorgen lang­fris­tig für eine nach­hal­ti­ge En­er­gie­ver­sor­gung.
  • Marketing: Big Data wird im Marketing-Bereich oft zu Targeting-Zwecken genutzt. Ziel ist meist die Ver­bes­se­rung der Customer-Re­la­ti­onship und eine Stei­ge­rung von Con­ver­si­ons bei ver­schie­de­nen Marketing-Maßnahmen.
  • Ver­bre­chens­be­kämp­fung: Auch Regierung und Staats­schutz greifen auf Big Data zurück – z. B. im Rahmen der Ter­ro­ris­mus­be­kämp­fung.

Kritik an Big Data

Vielen Kritikern von Big Data geht es um den Da­ten­schutz. Große Da­ten­be­stän­de bieten Potenzial für Un­ter­neh­men und Marken, dank Big Data kann man Marketing-Maßnahmen besser aus­steu­ern. Doch mit den fürs Targeting ver­wen­de­ten Da­ten­men­gen könnten auch präzise Nut­zer­pro­fi­le erstellt werden. Das sehen Da­ten­schüt­zer als Eingriff in die Pri­vat­sphä­re der Nutzer. Wer mit Big Data arbeitet, muss Kunden bzw. Website-Besuchern in der Da­ten­schutz­er­klä­rung auf die Ver­wen­dung per­so­nen­be­zo­ge­ner Daten hinweisen.

Ein weiterer Kri­tik­punkt ist die „Al­lein­herr­schaft über die Daten“. Denn natürlich gibt es auch im Big-Data-Bereich so­ge­nann­te Big Player. Das sind Un­ter­neh­men, die schon seit Jahren mit großen Da­ten­be­stän­den arbeiten und Geld verdienen, z. B. Google oder andere Such­ma­schi­nen­pro­vi­der. So gewinnen einzelne Un­ter­neh­men eine große Da­ten­ho­heit. Diese Mo­no­pol­stel­lung wird ebenso häufig kri­ti­siert wie die Gefahr eines groß an­ge­leg­ten Da­ten­miss­brauchs. Ohne klare Re­ge­lun­gen zum Schutz der Daten und An­ony­mi­sie­rung der ver­wer­te­ten Da­ten­sät­ze ist der miss­bräuch­li­che Einsatz von User-Daten nicht aus­ge­schlos­sen.

Ver­ant­wor­tungs­vol­ler Umgang mit Big Data

Trotz aller Kri­tik­punk­te kann der Einsatz von Big Data sinnvoll sein – vor­aus­ge­setzt, die Technik wird korrekt ein­ge­setzt. Einige wichtige Fort­schrit­te, bei­spiels­wei­se in der Krebs­for­schung, wären ohne Big Data nicht möglich gewesen. En­er­gie­ver­sor­gung und Ver­kehrs­we­sen werden ebenfalls durch die Aus­wer­tung von Mas­sen­da­ten stetig optimiert und bieten dadurch mehr Si­cher­heit im Alltag. Doch trotz vieler Chancen in den Bereichen Medizin, Ver­kehrs­we­sen und Wirt­schaft stellen sich ethische Fragen. Denn die Vor­her­seh­bar­keit be­stimm­ter Er­eig­nis­se, z. B. ob jemand mit hoher Wahr­schein­lich­keit eine bestimmte Krankheit bekommt, ist vielen un­heim­lich. Die Be­völ­ke­rung hat ihre Vor­be­hal­te und bekommt so mehr und mehr Angst vor den so­ge­nann­ten Da­ten­kra­ken. Dem will der deutsche Di­gi­tal­ver­band Bitkom mit Leit­li­ni­en zum Big-Data-Einsatz ent­ge­gen­tre­ten. Anbieter und Anwender finden darin Emp­feh­lun­gen für die ver­ant­wor­tungs­vol­le Nutzung von Big Data. Zentrale Themen sind der Da­ten­schutz und die Wahrung der Pri­vat­sphä­re von Nutzern. Darüber hinaus wird eine nach­voll­zieh­ba­re und trans­pa­ren­te Da­ten­ver­ar­bei­tung und -nutzung empfohlen. Denn nur wenn Un­ter­neh­men ihre Praktiken of­fen­le­gen und für Trans­pa­renz sorgen, kann die Angst der Nutzer vor den Da­ten­kra­ken umgangen und Vertrauen ge­schaf­fen werden.

Zum Hauptmenü