GlusterFS ist ein ver­teil­tes, beliebig ska­lier­ba­res Da­tei­sys­tem, das Spei­cher­ele­men­te von mehreren Servern in einem ein­heit­li­chen Da­tei­sys­tem agg­re­giert. Da­tei­sys­te­me arbeiten im Ver­bor­ge­nen. Kaum jemand macht sich nach der In­stal­la­ti­on noch Gedanken darüber. Meist ändert sich dies erst, wenn Daten verloren gegangen sind oder das Da­tei­sys­tem an seine Grenzen stößt, bei­spiels­wei­se durch die maximale Größe einer Partition oder Be­schrän­kun­gen bei den Spei­cher­pfad­t­ie­fen.

Wer und was verbirgt sich hinter GlusterFS?

Der Name „Gluster“ setzt sich aus „GNU“ (GNU’s not Unix) und „Cluster“ zusammen. Das System wurde unter der GNU-General Public License (GNU-GPLS) ver­öf­fent­licht und kann somit kos­ten­frei genutzt werden. Der Begriff „Cluster“ (wörtliche Über­set­zung: „Haufen“) be­schreibt im Kontext von Da­ten­trä­gern die logische Zu­sam­men­fas­sung von phy­si­ka­li­schen Spei­cher­ein­hei­ten. Im Zu­sam­men­hang mit Rechnern ist damit ein ver­netz­ter Verbund mehrerer Systeme gemeint. GlusterFS vereint diese Ansätze, indem es Spei­cher­platz von ver­netz­ten Rechnern zu­sam­men­fasst und als logische Einheit verwendet.

Das Projekt wurde 2005 durch die Gluster Inc. ver­öf­fent­licht. Im Jahr 2011 übernahm der Linux-Dis­tri­bu­tor RedHat das Un­ter­neh­men und ent­wi­ckelt das Da­tei­sys­tem seitdem stetig weiter. Im Januar 2020 erschien die Version 7 von GlusterFS. Sie ist vor­kom­pi­liert für folgende Linux-Dis­tri­bu­tio­nen er­hält­lich:

  • CentOS
  • Debian
  • Fedora
  • RedHat/RHEL
  • SUSE
  • Ubuntu

Die Be­schrän­kung auf Unix-basierte Systeme ist in der Ein­bin­dung des Speichers über das FUSE-Modul begründet. Dieses ist bislang nicht in einer aus­rei­chen­den Sta­bi­li­tät für Windows verfügbar.

Hinweis

FUSE ist die Abkürzung für File­sys­tem in Userspace. Be­triebs­sys­te­me un­ter­glie­dern sich üb­li­cher­wei­se in den User- und den Kernel-Bereich. Letzterer ist besonders geschützt und bei­spiels­wei­se nur mit Ad­mi­nis­tra­to­ren­rech­ten zu­gäng­lich. Daher ist das Einbinden („Mounten“) und die Ver­wal­tung von Lauf­wer­ken nor­ma­ler­wei­se nur mit Ad­mi­nis­tra­to­ren­rech­ten möglich. FUSE erlaubt es jedoch auch Benutzern, Da­tei­sys­te­me zu verwalten.

Rechner können als Server und als Client fungieren. Ein reiner Zugriff auf das Da­tei­sys­tem ist aber auch von anderen Systemen aus möglich. Es werden das NFS (Network File System) und SMB/CIFS (Server Message Block/Common Internet File System) un­ter­stützt.

Funk­ti­ons­wei­se von GlusterFS

Sinnvoll ist ein ver­teil­tes Da­tei­sys­tem erst, wenn mehrere Rechner mit­ein­an­der verbunden werden. In der Do­ku­men­ta­ti­on von GlusterFS werden min­des­tens drei Server gefordert. Dabei ist der Begriff „Server“ aber nicht wörtlich zu verstehen. Es kann nahezu jede Form von phy­si­ka­li­scher oder emu­lier­ter Hardware ein­ge­bun­den werden. Neben be­lie­bi­gen Rechnern ist auch der Einsatz vir­tu­el­ler Maschinen prak­ti­ka­bel. Dies bringt Vorteile mit sich, ins­be­son­de­re im Hinblick auf die Fle­xi­bi­li­tät.

Die ein­ge­bun­de­nen Server fungieren als Nodes (Kno­ten­punk­te). Diese verbinden sich über das TCP/IP-Netzwerk. Die ein­ge­bun­de­nen Geräte bilden einen so­ge­nann­ten Trusted Pool, also einen Verbund ver­trau­ens­wür­di­ger Server. Ihren Speicher stellen sie in Form von Bricks (Bausteine) zur Verfügung. Auf den Bricks werden schließ­lich die Volumes (Laufwerke) gebildet. Diese können in der Folge wie normale Da­ten­trä­ger ein­ge­bun­den und verwendet werden. Zu­grei­fen­de Rechner werden als Clients be­zeich­net. Es ist möglich, dass ein PC sowohl Server als auch Client ist.

Ein be­son­de­res Merkmal ist die enorme Ska­lier­bar­keit. Es können später beliebig viele Nodes und Bricks ergänzt werden. Hierdurch kann die Größe des Spei­cher­plat­zes laufend den je­wei­li­gen An­for­de­run­gen angepasst werden. Die maximale Größe des zu ver­wal­ten­den Speichers liegt bei mehreren Petabytes.

Zudem ge­währ­leis­tet GlusterFS eine Aus­fall­si­cher­heit durch Redundanz. Das Aus­fall­ri­si­ko verteilt sich zunächst auf mehrere Systeme, die auch räumlich getrennt stehen können. Zu­sätz­lich ist es möglich, RAID-Verbunde ein­zu­rich­ten. Im Gegensatz zum stan­dard­mä­ßig vor­ge­ge­be­nen Dis­tri­bu­ted (ver­teil­ten) Volume muss hierzu ein Re­pli­ca­ted (kopiertes) Volume angelegt werden. Dieses speichert jede Datei doppelt und ent­spricht einem Mirror-RAID.

Fakt

Redundant Array of In­de­pen­dent Disks (RAID) ist ein Verbund phy­si­ka­lisch von­ein­an­der un­ab­hän­gi­ger Fest­plat­ten. Auf diesen wird ein zu­sam­men­hän­gen­des Laufwerk gebildet. Je nach Ziel­rich­tung kann der Fokus auf Ge­schwin­dig­keit oder Da­ten­si­cher­heit gelegt werden. Ent­spre­chend ver­rin­gert sich dann der Spei­cher­platz durch mehrfache Ablage von Daten oder Spei­che­rung von Zu­satz­in­for­ma­tio­nen für eine Da­tei­wie­der­her­stel­lung.

Für Trans­ak­tio­nen auf dem Spei­cher­platz bietet GlusterFS zehn vor­de­fi­nier­te Trans­la­to­ren. Diese über­set­zen Befehle, die mit Nut­zer­rech­ten erteilt wurden, für die Aus­füh­rung auf dem Speicher. Beispiele sind der Trans­la­tor „Storage“, der Daten auf dem lokalen Da­tei­sys­tem speichert und den Zugriff darauf regelt, oder der Trans­la­tor „En­cryp­ti­on“, der für die Ver­schlüs­se­lung zuständig ist.

Eine neue Funktion ist die Geo-Re­pli­ka­ti­on, mit der eine asyn­chro­ne Ver­tei­lung von Daten auf Server mit un­ter­schied­li­chen Stand­or­ten durch­ge­führt werden kann. Dies bietet zu­sätz­li­chen Schutz vor phy­si­ka­li­scher Ein­wir­kung auf die Server, etwa durch Scha­dens­er­eig­nis­se wie Brände oder Diebstahl. Dabei fungiert ein Rechner als Master und ein weiterer als Slave. Die Über­tra­gung der Daten ist per SSH (Secure Shell) ab­ge­si­chert.

Vor- und Nachteile von GlusterFS

Wir haben einige Vor- und Nachteile eines ver­teil­ten Da­tei­sys­tems gegenüber einem her­kömm­li­chen Netz­werk­spei­cher in einer Übersicht für Sie zu­sam­men­ge­fasst:

Vorteile von Gluster Nachteile von Gluster
Gute Aus­las­tung vor­han­de­ner Ka­pa­zi­tä­ten Schaffung einer kom­ple­xe­ren Netz­werk­struk­tur
Erhöhung der Aus­fall­si­cher­heit Erhöhter ad­mi­nis­tra­ti­ver Aufwand bei der Ein­rich­tung
Ver­tei­lung der Netzlast Schnelle Netz­werk­in­fra­struk­tur nötig
Sehr gute Ska­lier­bar­keit Zu­sätz­li­cher Aufwand zur tech­ni­schen Ab­si­che­rung

An­wen­dungs­fäl­le von GlusterFS

GlusterFS bildet im Prinzip mus­ter­gül­tig eine Cloud ab. Ein Spei­cher­platz, der sich in einem Verbund befindet, wird den an­ge­schlos­se­nen Clients zu­gäng­lich gemacht. Dies eignet sich ins­be­son­de­re für größere Netzwerke, in denen ohnehin aus­rei­chend Res­sour­cen für die Bildung eines Verbunds vorhanden sind.

Da die Anbindung der Geräte über das Internet-Protokoll erfolgt, eignen sich vor allem Un­ter­neh­mens­struk­tu­ren mit mehreren Zweig­stel­len gut für den Aufbau eines ver­teil­ten Da­tei­sys­tems. Aber auch in örtlich be­grenz­ten Netz­werk­struk­tu­ren kann auf diese Weise ein de­di­zier­ter Netz­werk­spei­cher ein­ge­spart werden – und dass sogar, ohne auf Redundanz ver­zich­ten zu müssen.

Tipp

Sie möchten selbst mit GlusterFS arbeiten? IONOS hat einen aus­führ­li­chen How-to-Artikel für In­stal­la­ti­on und Ein­rich­tung des Da­tei­sys­tems für Sie verfasst.

Al­ter­na­ti­ven zu GlusterFS

Neben GlusterFS ist ins­be­son­de­re Ceph eine Al­ter­na­ti­ve, die ebenfalls kos­ten­frei verfügbar ist und viele der auf­ge­führ­ten Vorteile ver­teil­ter Da­tei­sys­te­me bietet. Ceph und Gluster haben jeweils un­ter­schied­li­che Vor- und Nachteile (Sehen Sie hierzu auch unseren Artikel GlusterFS vs. Ceph, in dem wir beide Systeme mit­ein­ader ver­glei­chen).

Speziell für leis­tungs­star­ke Rech­ner­sys­te­me wurde das BeeGFS (zuvor FhGFS) vom Fraun­ho­fer-Institut ent­wi­ckelt. Es wird ebenfalls kostenlos angeboten und legt einen Fokus auf einfache Be­dien­bar­keit.

Im kom­mer­zi­el­len Bereich gibt es zudem Systeme wie Storage Spaces Direct (S2D) von Microsoft, dessen Anwendung al­ler­dings auf kos­ten­pflich­tig li­zen­sier­te Windows-Server be­schränkt ist.

Zum Hauptmenü