Verteilte Spei­cher­sys­te­me sind die Lösung zum Speichern und Verwalten von Daten, die nicht mehr auf einen typischen Server passen. Dabei geht es nicht nur um die reine Größe. Gerade wenn es sich um un­struk­tu­rier­te Daten handelt, funk­tio­niert ein klas­si­sches Da­tei­sys­tem mit seiner Ord­ner­struk­tur nicht mehr.

IONOS Cloud Object Storage
Daten sicher und günstig speichern

Ersetzen Sie eigene, kos­ten­in­ten­si­ve Spei­cher­lö­sun­gen mit IONOS Cloud Object Storage. Es ist hoch­gra­dig ska­lier­bar, äußerst kos­ten­ef­fi­zi­ent und in­te­griert sich in Ihre An­wen­dungs­sze­na­ri­en. Die extrem hohe Aus­fall­si­cher­heit unserer Server sowie eine in­di­vi­du­el­le Zu­griffs­steue­rung schützen Ihre Daten zu­ver­läs­sig.

Große Da­ten­men­gen speichern – GlusterFS und Ceph machen’s möglich

Bei Mas­sen­da­ten ist die tat­säch­li­che Da­ten­men­ge am Anfang des Projekts nicht bekannt. Die Systeme müssen deshalb im laufenden Betrieb sehr leicht um zu­sätz­li­che Server er­wei­ter­bar sein, die sich nahtlos in ein vor­han­de­nes Storage-System in­te­grie­ren. Das so­ge­nann­te Dis­tri­bu­ted File­sys­tem sieht für den Anwender aus wie ein einziger Ordner in einem her­kömm­li­chen Da­tei­sys­tem. So bekommt der Anwender nichts davon mit, dass einzelne Dateien oder sogar Teile davon auf ver­schie­de­nen Servern liegen können, die sich teilweise an geo­gra­fisch ent­fern­ten Orten befinden. Da GlusterFS und Ceph beide bereits Software-Layer auf Linux-Be­triebs­sys­te­men sind, stellen sie keine be­son­de­ren An­for­de­run­gen an die Hardware. Linux läuft auf jedem Standard-Server und un­ter­stützt alle gängigen Fest­plat­ten­ty­pen.

Hohe Ver­füg­bar­keit ist ent­schei­dend

Hohe Ver­füg­bar­keit ist ein wichtiges Thema bei ver­teil­ten Spei­cher­lö­sun­gen. Hardware-Ausfälle sollten so selten wie möglich vorkommen, auch die zum Betrieb not­wen­di­ge Software muss selbst beim Hin­zu­fü­gen neuer Kom­po­nen­ten un­un­ter­bro­chen wei­ter­lau­fen. War­tungs­ar­bei­ten müssen sich im laufenden Betrieb erledigen lassen. Alle wichtigen Metadaten dürfen nicht nur an einer zentralen Stelle ge­spei­chert werden. Der Zugriff auf die Metadaten muss dezentral möglich sein und es darf dabei keinen Punkt ohne Redundanz geben. Ein Ser­ver­aus­fall darf kei­nes­falls die Kon­sis­tenz des gesamten Systems be­schä­di­gen. GlusterFS und Ceph sind zwei nahezu beliebig er­wei­ter­ba­re Systeme mit un­ter­schied­li­chem Ansatz, mit denen Daten aus Big-Data-Projekten in einem System zu­sam­men­ge­führt und durch­sucht werden können.

Fakt

Der Begriff „Big Data“ wird für sehr große, komplexe und kaum struk­tu­rier­te Mas­sen­da­ten verwendet, wie sie bei wis­sen­schaft­li­chen Sensoren (z. B. von GPS-Sa­tel­li­ten), Wet­ter­netz­wer­ken oder auch in der Statistik anfallen. Neben der Spei­che­rung spielen eine ef­fi­zi­en­te Suche und die Sys­te­ma­ti­sie­rung der Daten eine wichtige Rolle bei Big Data.

Kurz­vor­stel­lung von GlusterFS

GlusterFS ist ein ver­teil­tes Da­tei­sys­tem mit modularem Aufbau. Ver­schie­de­ne Server werden über ein TCP/IP-Netzwerk mit­ein­an­der verbunden. Als POSIX (Portable Operating System Interface)-konformes Da­tei­sys­tem lässt sich GlusterFS leicht in be­stehen­de Linux-Ser­ver­um­ge­bun­gen in­te­grie­ren. Das gilt auch für FreeBSD, Open­So­la­ris und macOS, die POSIX ebenfalls un­ter­stüt­zen. Die Ein­bin­dung in Windows-Um­ge­bun­gen ist bisher nur über den Umweg eines Linux-Servers als Gateway möglich.

Funk­ti­ons­wei­se von GlusterFS

GlusterFS war in der An­fangs­zeit ein klas­si­sches da­tei­ba­sier­tes Spei­cher­sys­tem, das erst später ob­jekt­ori­en­tiert wurde, wobei be­son­de­rer Wert auf die optimale In­te­grier­bar­keit in die bekannte Open-Source-Cloud-Lösung OpenStack gelegt wurde. Im Hin­ter­grund arbeitet GlusterFS weiterhin auf Da­tei­ba­sis, wobei jeder Datei ein Objekt zu­ge­ord­net wird, deren Ver­bin­dung über Hardlinks im Da­tei­sys­tem fest­ge­legt ist. Dem Anwender gegenüber treten keine de­di­zier­ten Server auf, denn ihm stehen eigene Schnitt­stel­len zur Verfügung, um seine Daten auf dem GlusterFS, das als Ge­samt­sys­tem erscheint, zu speichern.

Vorteile Nachteile
Leichte Ein­bin­dung in Linux-Systeme Ein­bin­dung in Windows-Systeme nur über Umwege
POSIX-Kom­pa­ti­bi­li­tät
FUSE-Un­ter­stüt­zung (File System in User Space)

Kurz­vor­stel­lung von Ceph

Die verteilte Open-Source-Storage-Lösung Ceph ist ein Ob­jekt­spei­cher, der auf der Basis binärer Objekte funk­tio­niert und damit die starren Block­struk­tu­ren klas­si­scher Da­ten­trä­ger umgeht. Phy­si­ka­lisch verwendet Ceph zwar auch Fest­plat­ten, ein eigener Al­go­rith­mus regelt jedoch die Ver­wal­tung der binären Objekte, die quer über mehrere Server in beliebige Teile auf­ge­teilt und später wieder zu­sam­men­ge­setzt werden können.

Funk­ti­ons­wei­se von Ceph

Alle Kom­po­nen­ten funk­tio­nie­ren dezentral. Alle OSDs (Object Based Storage Device = ob­jekt­ba­sier­tes Spei­cher­ge­rät) sind un­ter­ein­an­der gleich­be­rech­tigt. So können beliebig viele Server mit un­ter­schied­li­chen Fest­plat­ten mit­ein­an­der zu einem Spei­cher­sys­tem verbunden werden. Ceph bietet durch drei wichtige Schnitt­stel­len ver­schie­de­ne Mög­lich­kei­ten, sich in vor­han­de­ne Sys­tem­um­ge­bun­gen zu in­te­grie­ren: CephFS als Linux-Da­tei­sys­tem­trei­ber, RADOS Block Devices (RBD) als Linux-Device, der sich direkt einbinden lässt, und das RADOS Gateway, das zu Swift und Amazon S3 kom­pa­ti­bel ist.

Vorteile Nachteile
Leichte Ein­bin­dung in alle Systeme, un­ab­hän­gig vom ver­wen­de­ten Be­triebs­sys­tem Schwä­che­re Da­tei­sys­tem­funk­tio­nen
Block Device für Linux Höherer Ein­ar­bei­tungs­auf­wand durch völlig neuartige Spei­cher­struk­tu­ren
CephFS-Da­tei­sys­tem für Linux
Amazon-S3-Schnitt­stel­le
Nahtlose Anbindung an Keystone-Au­then­ti­fi­zie­rung
FUSE-Modul (File System in User Space) zur Un­ter­stüt­zung von Systemen ohne CephFS-Client

Vergleich: GlusterFS vs. Ceph

Bedingt durch die tech­ni­schen Un­ter­schie­de zwischen GlusterFS und Ceph gibt es keinen ein­deu­ti­gen Gewinner. Prin­zi­pi­ell ist Ceph ein ob­jekt­ba­sier­ter Speicher für un­struk­tu­rier­te Daten, wo­hin­ge­gen GlusterFS hier­ar­chi­sche Da­tei­sys­tem­bäu­me in Block­spei­chern nutzt. GlusterFS hat seine Ursprünge in einem hoch­ef­fi­zi­en­ten da­tei­ba­sier­ten Spei­cher­sys­tem, das immer mehr in Richtung Ob­jekt­ori­en­tie­rung wei­ter­ent­wi­ckelt wird. Im Gegensatz dazu wurde Ceph von Anfang an als binärer Ob­jekt­spei­cher (Object Storage) ent­wi­ckelt und nicht als klas­si­sches Da­tei­sys­tem, was zu Schwächen bei typischen Da­tei­sys­tem­ope­ra­tio­nen führen kann.

GlusterFS Ceph
Stärken im Da­tei­sys­tem Stärken im Object Store
Schnel­le­rer Spei­cher­al­go­rith­mus Bessere Per­for­mance auf einfacher Hardware
Kein zentraler Metadaten-Server nötig Leichte Ein­bin­dung in alle Systeme, un­ab­hän­gig vom ver­wen­de­ten Be­triebs­sys­tem
Geringere Kom­ple­xi­tät Block Device für Linux
Bessere Eignung zum Speichern größerer Dateien (ab etwa 4 MB pro Datei) Ein­fa­che­re Mög­lich­kei­ten für kun­den­spe­zi­fi­sche An­pas­sun­gen
Bessere Eignung für Dateien mit se­quen­zi­el­lem Zugriff RADOS-Kom­pa­ti­bi­li­tät

Wann ist welches System sinnvoll ein­zu­set­zen?

Ceph ist durch seine viel­fäl­ti­gen Schnitt­stel­len gut in he­te­ro­ge­nen Netz­wer­ken nutzbar, wo neben Linux auch noch andere Be­triebs­sys­te­me ein­ge­setzt werden. Dafür spielt GlusterFS seine Stärken aus, wenn es um das Speichern einer großen Anzahl klas­si­scher und auch größerer Dateien geht. Da Ceph von Anfang an als Open-Source-Lösung ent­wi­ckelt wurde, war es früher an vielen Stellen leichter ein­setz­bar als GlusterFS, das erst später als Open Source frei­ge­ge­ben wurde. Ein wichtiges Ein­satz­ge­biet für verteilte Speicher sind Cloud-Lösungen. Hier ist OpenStack eines der wich­tigs­ten Software-Projekte, die Ar­chi­tek­tu­ren für Cloud-Computing anbieten. GlusterFS und Ceph arbeiten glei­cher­ma­ßen gut mit OpenStack zusammen.

Zum Hauptmenü