Ausfallsicherheit
Vor allem Mittelständler unterschätzen die Auswirkungen von IT-Ausfällen auf den Geschäftsbetrieb. Ein Grund dafür ist die hohe Zuverlässigkeit von Standardkomponenten, die heutzutage in der Unternehmens-IT zum Einsatz kommen. Deren Verfügbarkeit wird in der Regel auf 99,9 Prozent geschätzt. Ein Wert, der hoch erscheint, bei einem 24-Stundenbetrieb aufs Jahr gerechnet aber eine maximale Ausfallzeit von fast 9 Stunden zulässt. Fällt diese ausgerechnet in die Hauptgeschäftszeit, kommt auch ein relativ kurzer Serverausfall dem Unternehmen teuer zu stehen. Für die Bereitstellung geschäftskritischer Daten und Anwendungen haben sich daher hochverfügbare IT-Systeme mit einer Verfügbarkeit von 99,99 Prozent als Standard etabliert. Für diese wird eine maximale Downtime von 52 Minuten pro Jahr garantiert. Einige IT-Experten sprechen sogar erst ab einer Verfügbarkeit von 99,999 Prozent von Hochverfügbarkeit. Diese Systeme fallen dann maximal 5 Minuten im Jahr aus.
Das Problem an solchen Verfügbarkeitsangaben ist jedoch, dass diese sich lediglich auf die Ausfallsicherheit der Serverhardware beziehen. Der Definition desIEEE (Institute of Electrical and Electronics Engineers) zufolge gilt ein System als hochverfügbar, wenn es trotz des Ausfalls von Systemkomponenten die Verfügbarkeit seiner IT-Ressourcen sicherstellen kann:
„High Availability (HA for short) refers to the availability of resources in a computer system, in the wake of component failures in the system.”
Erreicht wird dies beispielsweise durch Server, die komplett redundant aufgebaut sind. Alle betriebswichtigen Bauteile – insbesondere Prozessoren, Speicher-Chips und I/O-Einheiten – sind doppelt vorhanden. Dies verhindert zwar zuverlässig, dass ein defektes Bauteil den Server lahmlegt, doch gegen einen Brand im Rechenzentrum, zielgerichtete Angriffe durch Schadsoftware und DDoS-Attacken, Sabotage oder die Übernahme des Servers durch Hacker schützt Hochverfügbarkeit hingegen nicht. Im realen Betrieb sollten Unternehmer daher mit deutlich längeren Ausfallzeiten rechnen und entsprechende Maßnahmen zu Prävention und Schadensbegrenzung treffen.
Weitere Strategien, den Ausfall von Serverressourcen im Rechenzentrum zu kompensieren, beruhen auf Stand-by-Systemen und Hochverfügbarkeitsclustern. Beide Ansätze basieren auf einem Verbund von zwei oder mehr Servern, die gemeinsam mehr Hardware-Ressourcen zur Verfügung stellen, als für den Normalbetrieb benötigt werden.
Bei einem Stand-by-System handelt es sich um einen zweiten Server, der der Absicherung des Primärsystems dient und dessen Dienste übernimmt, sobald selbiger aufgrund eines Hard- oder Softwarefehlers ausfällt. Die Dienstübernahme wird Failover genannt und durch eine Cluster-Manager-Software automatisch ohne Eingriff des Administrators eingeleitet. Ein solcher Aufbau aus einem aktiven und einem passiven Serverknoten kann als asymmetrisches Hochverfügbarkeitscluster betrachtet werden. Bieten alle Knoten im Cluster im Normalbetrieb Dienste an, spricht man von einem symmetrischen Aufbau.
Da es bei der Migration eines Dienstes von einem System auf ein anderes zu einer Zeitverzögerung kommt, lassen sich kurzzeitige Betriebsunterbrechung bei Stand-by-Systemen und Hochverfügbarkeitsclustern nicht gänzlich verhindern.