Mit dem Begriff Da­ten­re­duk­ti­on sind Methoden gemeint, mit deren Hilfe die physisch zu spei­chern­de Da­ten­men­ge reduziert werden kann. Auf diese Weise werden Spei­cher­platz und Kosten ein­ge­spart.

Was versteht man unter Da­ten­re­duk­ti­on?

Unter dem Begriff Da­ten­re­duk­ti­on werden ver­schie­de­ne Verfahren der Ka­pa­zi­täts­op­ti­mie­rung zu­sam­men­ge­fasst. Diese haben zum Ziel, die zu spei­chern­de Da­ten­men­ge zu re­du­zie­ren. An­ge­sichts weltweit stei­gen­der Da­ten­men­gen ist eine solche Reduktion er­for­der­lich, um eine res­sour­cen- und kos­ten­ef­fi­zi­en­te Spei­che­rung der Daten zu ge­währ­leis­ten.

Man un­ter­schei­det ver­schie­de­ne Ansätze bei der Da­ten­re­duk­ti­on: Da­ten­kom­pres­si­on und De­du­pli­ka­ti­on. Während die ver­lust­freie Kom­pres­si­on Red­un­dan­zen innerhalb einer Datei nutzt, um Daten zu ver­dich­ten, gleichen De­du­pli­ka­ti­ons-Al­go­rith­men Daten da­tei­über­grei­fend ab, um Wie­der­ho­lun­gen zu vermeiden.

De­du­pli­ka­ti­on

Bei De­du­pli­ka­ti­on handelt es sich um einen Prozess der Da­ten­re­duk­ti­on, der im We­sent­li­chen auf einer Ver­mei­dung von Da­ten­red­un­danz auf einem Spei­cher­sys­tem beruht. Er lässt sich entweder am Spei­cher­ziel oder an der Da­ten­quel­le rea­li­sie­ren. Dabei kommt eine De­du­pli­ka­ti­ons-Engine zum Einsatz, die sich spe­zi­el­ler Al­go­rith­men bedient, um red­un­dan­te Dateien oder Da­ten­blö­cke zu iden­ti­fi­zie­ren und zu eli­mi­nie­ren. Zentrales An­wen­dungs­ge­biet der De­du­pli­ka­ti­on ist die Da­ten­si­che­rung.

Die Da­ten­re­duk­ti­on mithilfe von De­du­pli­ka­ti­on verfolgt das Ziel, lediglich so viele In­for­ma­tio­nen auf einen nicht­flüch­ti­gen Da­ten­trä­ger zu schreiben, wie nötig sind, um eine Datei ver­lust­frei re­kon­stru­ie­ren zu können. Je mehr Duplikate entfernt werden, desto kleiner wird die Da­ten­men­ge, die ge­spei­chert oder über­tra­gen werden muss.

Die Iden­ti­fi­ka­ti­on von Du­pli­ka­ten kann wie bei­spiels­wei­se bei Git oder Dropbox auf Datei-Ebene erfolgen, ef­fi­zi­en­ter jedoch sind De­du­pli­ka­ti­ons-Al­go­rith­men, die auf der Sub-Datei-Ebene arbeiten. Dazu werden Dateien zunächst in Da­ten­blö­cke (Chunks) zerlegt und mit ein­deu­ti­gen Prüf­sum­men, so­ge­nann­ten Hash­wer­ten, versehen. Als zentrale Kon­troll­in­stanz dient eine Tracking-Datenbank, die sämtliche Prüf­sum­men be­inhal­tet.

Man kann zwei Varianten der block­ba­sier­ten De­du­pli­ka­ti­on un­ter­schei­den:

  • Feste Block­län­ge: Dateien werden in Ab­schnit­te mit exakt gleicher Länge un­ter­teilt, die sich an der Clus­ter­grö­ße des Datei- oder RAID-Systems (ty­pi­scher­wei­se 4 KB) ori­en­tiert.
  • Variable Block­län­ge: Der Al­go­rith­mus teilt die Daten in un­ter­schied­li­che Blöcke auf, deren Länge je nach Art der zu ver­ar­bei­ten­den Daten variiert.

Die Art der Block­ein­tei­lung hat einen gra­vie­ren­den Einfluss auf die Effizienz der Da­ten­de­du­pli­ka­ti­on. Vor allem bei der nach­träg­li­chen Ver­än­de­rung de­du­pli­zier­ter Dateien wird dies deutlich: Bei der Nutzung fester Block­grö­ßen werden bei Änderung einer Datei auch alle nach­fol­gen­den Segmente aufgrund der Ver­schie­bung der Block­gren­zen vom De­du­pli­ka­ti­ons-Al­go­rith­mus als neu ein­ge­stuft. Dies erhöht den Re­chen­auf­wand sowie die Aus­las­tung der Band­brei­te.

Nutzt ein Al­go­rith­mus hingegen variable Block­gren­zen, wirken sich die Ver­än­de­run­gen eines einzelnen Da­ten­blocks nicht auf die an­gren­zen­den Segmente aus. Statt­des­sen wird lediglich der ver­än­der­te Da­ten­block um die neuen Bytes erweitert und ge­spei­chert. Dies entlastet das Netzwerk. Die Fle­xi­bi­li­tät in Bezug auf Da­tei­än­de­run­gen ist jedoch re­chen­in­ten­si­ver, da ein Al­go­rith­mus erst einmal her­aus­fin­den muss, wie die Chunks auf­ge­teilt sind.

Cloud Backup powered by Acronis
Mi­ni­mie­ren Sie Aus­fall­zei­ten mit unserem Kom­plett­schutz
  • Au­to­ma­tisch: Backups und Recovery
  • Intuitiv: Planung und Ma­nage­ment
  • In­tel­li­gent: KI-basierter Be­dro­hungs­schutz
  • Inkl. 300,- € Start­gut­ha­ben im 1. Monat

Da­ten­kom­pres­si­on

Bei der Da­ten­kom­pres­si­on werden Dateien in eine al­ter­na­ti­ve Dar­stel­lung überführt, die ef­fi­zi­en­ter ist als die ur­sprüng­li­che. Ziel dieser Da­ten­re­duk­ti­on ist es, sowohl den be­nö­tig­ten Spei­cher­platz als auch die Über­tra­gungs­zeit zu ver­rin­gern. Solch ein Co­dier­ge­winn lässt sich durch zwei un­ter­schied­li­che Ansätze erreichen:

  • Redundanz-Kom­pres­si­on: Bei einer ver­lust­frei­en Da­ten­kom­pres­si­on lassen sich Daten auch nach der Kom­pres­si­on wieder bitgenau de­kom­pri­mie­ren. Eingangs- und Aus­gangs­da­ten sind somit identisch. Eine solche Redundanz-Kom­pres­si­on ist nur möglich, wenn eine Datei red­un­dan­te In­for­ma­tio­nen be­inhal­tet.
  • Ir­rele­vanz-Kom­pres­si­on: Bei einer ver­lust­be­haf­te­ten Kom­pres­si­on werden ir­rele­van­te In­for­ma­tio­nen entfernt, um eine Datei zu kom­pri­mie­ren. Dies geht in jedem Fall mit einem Da­ten­ver­lust einher. Die Ur­sprungs­da­ten lassen sich nach einer Ir­rele­vanz-Kom­pres­si­on daher nur noch annähernd wie­der­her­stel­len. Welche Daten als ir­rele­vant ein­ge­stuft werden, ist Er­mes­sens­sa­che. Bei einer MP3-Au­dio­kom­pres­si­on werden bei­spiels­wei­se Fre­quenz­mus­ter entfernt, von denen an­ge­nom­men wird, dass Menschen diese kaum oder gar nicht hören.

Während Kom­pres­si­on auf der Ebene von Spei­cher­sys­te­men grund­sätz­lich ver­lust­frei erfolgt, werden Da­ten­ver­lus­te in anderen Bereichen wie der Bild-, Video- und Audio-Über­tra­gung bewusst in Kauf genommen, um eine Reduktion der Da­tei­grö­ße zu erzielen.

Sowohl die Codierung als auch die De­co­die­rung einer Datei erfordert Be­rech­nungs­auf­wand. Dieser hängt in erster Linie von der ver­wen­de­ten Kom­pres­si­ons­me­tho­de ab. Während einige Techniken auf eine möglichst kompakte Dar­stel­lung der Aus­gangs­da­ten ausgelegt sind, steht bei anderen eine Reduktion der be­nö­tig­ten Re­chen­zeit im Mit­tel­punkt. Die Wahl der Kom­pres­si­ons­me­tho­de richtet sich daher immer nach den An­for­de­run­gen des Ein­satz­ge­biets.

Ver­schie­de­ne Mög­lich­kei­ten zur Da­ten­re­duk­ti­on im Vergleich

Um Backup-Pro­ze­du­ren zu rea­li­sie­ren oder die Ablage in Standard-Da­tei­sys­te­men zu op­ti­mie­ren, setzen Un­ter­neh­men in der Regel auf De­du­pli­ka­ti­on. Dies liegt vor allem daran, dass De­du­pli­ka­ti­ons-Systeme extrem effizient arbeiten, wenn iden­ti­sche Dateien abgelegt werden sollen.

Da­ten­kom­pres­si­ons­ver­fah­ren hingegen sind in der Regel mit einem höheren Re­chen­auf­wand verbunden und benötigen daher auf­wen­di­ge­re Platt­for­men. Am ef­fek­tivs­ten lassen sich Spei­cher­sys­te­me mit einer Kom­bi­na­ti­on beider Da­ten­re­duk­ti­ons­ver­fah­ren nutzen. Dabei werden Red­un­dan­zen aus den zu spei­chern­den Dateien zunächst durch De­du­pli­ka­ti­on entfernt und die ver­blie­be­nen Daten an­schlie­ßend kom­pri­miert.

Zum Hauptmenü