Rechenzentrum Tier: Das bedeuten die 4 Stufen
Sind Sie bei Ihrer Suche nach einem Rechenzentrum öfters über den Begriff „Tier“ gestolpert? In Rechenzentren spielt der sogenannte Tier-Standard eine wichtige Rolle. Er gewährleistet nämlich die Verfügbarkeit und Zuverlässigkeit der IT-Infrastruktur.
Der Tier-Standard umfasst vier verschiedene Stufen, die auf Zuverlässigkeits- und Betriebszeitniveaus der Rechenzentren beruhen. Je höher das Tier-Level, desto seltener bzw. kürzer sind die Ausfälle im Rechenzentrum und umso zuverlässiger ist es in solchen Situationen.
Diese Klassifizierung wurde vom Uptime Institute entwickelt: eine weltweite Organisation für Zertifizierungs-, Schulungs- und Beratungsdienste für Rechenzentren und andere kritische Infrastrukturen.
In diesem Beitrag erklären wir Ihnen, welche Voraussetzungen Rechenzentren für die jeweiligen Tier Level erfüllen müssen. Außerdem erfahren Sie, wie die Tier die Zuverlässigkeit Ihrer Infrastruktur beeinflussen und welche Garantien Sie sich von einem Rechenzentrumsanbieter erwarten können.
Zunächst müssen wir jedoch die wichtigsten Begriffe erklären, die in den Tier-Definitionen vorkommen.
Rechenzentrum Tier Basiswissen: Redundanz, SPoF und Hochverfügbarkeit
Damit Sie die Tier-Einteilung verstehen können, müssen Sie diese 3 Begriffe und deren Bedeutung kennen.
Redundanz: N+1 für geringere Ausfallzeiten
Redundanz ist ein wichtiger Begriff in der Welt der Rechenzentren. Redundanz im Rechenzentrum heißt, dass „immer mindestens ein Gerät mehr vorhanden ist, als es tatsächlich braucht“ – also N (= Grundbedarf) +1.
Es gibt somit mehrfach vorhandene Komponenten in der Infrastruktur des Rechenzentrums. Diese erhalten den Betrieb des Rechenzentrums auch im Falle von Ausfällen oder Fehlern aufrecht.
Dafür ist vor allem die Stromversorgungs-Redundanz essenziell. Zum Beispiel sind viele Rechenzentren an mehrere Stromquellen angeschlossen. Das bedeutet, dass das Rechenzentrum auch bei einem Stromausfall normal weiterarbeiten kann.
Weiters gibt es in einigen Rechenzentren eine Netzwerk-Redundanz. Hierbei werden mehrere Netzwerk-Verbindungen eingesetzt, um sicherzustellen, dass das Rechenzentrum auch dann erreichbar ist, wenn eine der Verbindungen ausfällt.
Das kann zum Beispiel bedeuten, dass das Rechenzentrum über mehrere Internetleitungen verfügt, um sicherzustellen, dass es auch bei einer Störung einer Leitung noch eine andere Verbindung gibt.
Server-Redundanz kann in einem Rechenzentrum ebenfalls hergestellt werden. Fällt ein Server aus wird der Workload entweder auf mehrere andere Server aufgeteilt (= Load-Balancing) oder komplett auf einen anderen Server umgeschaltet (= Failover-System).
Letztlich kann auch die Speicher-Redundanz eine wichtige Rolle spielen. Hierbei werden Daten auf mehrere Festplatten gespeichert. Im Falle eines Festplatten-Ausfalls kann so in der Regel ein Datenverlust vermieden werden.
Hochverfügbarkeit: Redundanz macht es möglich
Hochverfügbarkeit bezieht sich auf die Fähigkeit eines Systems, immer verfügbar zu sein und ohne nennenswerte Unterbrechungen zu funktionieren.
Ein System mit hoher Verfügbarkeit hat normalerweise Mechanismen, um Ausfälle zu vermeiden oder zu minimieren. Dazu nutzen die meisten Rechenzentren Redundanz in Hardware, Software oder Netzwerken.
Verfügbarkeit berechnen
Die Verfügbarkeit wird in der Regel in Prozent angegeben. Diese prozentuelle Verfügbarkeit ist der Anteil der Verfügbarkeit (=Uptime) im Zeitraum von einem Jahr.
Die Berechnung basiert auf der Formel Uptime / (Uptime + Downtime) – wobei Downtime für die Ausfallzeiten steht.
Als Rechenbeispiel: Ein Rechenzentrum mit Tier IV garantiert Ihnen 99,995% Verfügbarkeit.
1 Jahr hat 525.600 Minuten.
Ist die Verfügbarkeit 99,995% bleibt eine Ausfallzeit von 0,005%.
0,005% von 525.600 Minuten entsprechen 26 Minuten und 16 Sekunden
Das heißt: Bei einer Verfügbarkeit von 99,995% könnte sich ein Rechenzentrum 26 Minuten Ausfallszeit im Jahr leisten, ohne die Verfügbarkeits-Garantien gegenüber seinen Kunden zu verletzen.
Übersicht zu den Ausfallzeiten bei häufig vorkommenden Verfügbarkeitsangaben:
Tier Stufe | Geschätzte prozentuale Verfügbarkeit | Jährliche Ausfallzeit (hh:mm:ss) |
Tier 1 | 99,6 % | 35:00:24 |
Tier 2 | 99,9 % | 08:46:00 |
Tier 3 | 99,99 % | 00:52:26 |
Tier 3 | 99,995 % | 00:26:16 |
Wie wird die Verfügbarkeit überhaupt bestimmt?
Generell kann die Verfügbarkeit von technischen Designs mittels einer Monte Carlo Simulation bestimmt werden. Das System basiert auf der Annahme, dass Ereignisse zufällig und in einem bestimmten Zeitraum auftreten.
Um die Verfügbarkeit zu überprüfen, wird ein virtuelles Abbild des Rechenzentrumsystems einer Vielzahl von Simulationsdurchgängen zur geplanten Nutzungsdauer unterzogen. Ein wesentliches Endergebnis ist schließlich die durchschnittliche, technische Verfügbarkeit des technischen Designs.
„Diese Simulationen sind jedoch extrem aufwendig, weil das gesamte technische Design hierarchisch in der Simulationssoftware abgebildet wird“, sagt Bernhard Pawlata, Quality Manager im Digital Realty Rechenzentrum in Wien.
Er führt aus: „Damit diese Simualtionen aussagekräftig sind, müssen alle wichtigen Daten miteinbezogen werden. Darum hinterlegen wir bei jeder technischen Komponente die herstellerspezifischen Daten wie z.B. technische Spezifikationen, Kennzahlen wie Meantime Between Failures (MTBF), etc.“
Single Point of Failure (SPoF): Hochverfügbarkeit und Redundanzen minimieren SPoF-Risiken
Ein Single Point of Failure (SPoF) tritt auf, wenn eine einzige Komponente oder ein einzelnes System ausfällt und dadurch das gesamte System beeinträchtigt.
Abhängig davon, wo sich der SPoFs befindet, kann er die Ausfallszeiten drastisch verlängern.
Zum Beispiel: Ein Ersatzteil muss eingebaut werden. Dieses ist vor Ort – in diesem Fall im Rechenzentrum – verfügbar. Zudem ist ein qualifizierter Techniker im Haus, der das Ersatzteil sofort einbauen kann. So kann der Ausfall im Idealfall nach kurzer Zeit – zwischen 1 bis 4 Stunden – behoben werden.
Doch selbst diese 4 Ausfallstunden können für ein Unternehmen bereits fatale Auswirkungen haben.
Muss das Ersatzteil erst geliefert werden und ist nicht gleich verfügbar, kann der Ausfall mehrere Monate dauern. In diesem Fall muss das Unternehmen eine vorübergehende Lösung finden, um den Betrieb sicherzustellen. Alternativen sind meist kostspielig oder weniger effizient.
Es ist daher wichtig, SPoFs zu identifizieren und zu beheben.
Quality Manager Bernhard Pawlata: „Um einen Single Point of Failure erkennen zu können, hilft beispielsweise eine Business Impact Analysis (BIA). Anschließend sollte eine Risikobewertung durchgeführt werden, um die notwendigen Verbesserungsmaßnahmen ergreifen zu können.“
Eine hochverfügbare Architektur mit redundanten Systemen minimiert das Ausfallrisiko durch SPoFs. Diese Architekturen finden Sie meist in Rechenzentren.
Was bedeuten die 4 Tier beim Rechenzentrum?
Tier 1 bzw. Tier I
Tier 1 ist die Grundstufe. Diese Tier I Rechenzentren haben:
- eine unterbrechungsfreie Stromversorgung (USV) für Stromausfälle und -spitzen
- einen abgegrenzten Bereich für IT-Systeme
- spezielle Kühlgeräte, die außerhalb der Bürozeiten laufen
- einen Motorgenerator für Stromausfälle
Einige Komponenten sind redundant verbaut:
- Kühlanlagen
- Pumpen
- USV-Module
- Motorgeneratoren
In diesen Einrichtungen sind Ihre Server vor Unterbrechungen durch menschliches Versagen geschützt, nicht aber vor unerwarteten Ausfällen oder Störungen.
Tier-1-Rechenzentren haben nämlich normalerweise nur einen Strom- und Kühlpfad für die gesamte IT-Infrastruktur. Wenn dieser Versorgungsweg ausfällt, gibt es keine redundante Verbindung, um die Strom- und Kühlversorgung aufrechtzuerhalten.
Hinzu kommt: Da viele Komponenten nicht redundant verbaut sind, muss das gesamte System für Wartungen und Reparaturen abgeschaltet werden. Das führt zu einer hohen Downtime.
Tier 2 bzw. Tier II
Tier-II-Rechenzentren umfassen redundante Kapazitätskomponenten (N+1) für Strom und Kühlung. Dadurch bieten sie bessere Wartungsmöglichkeiten und mehr Sicherheit vor Störungen.
Zu diesen Komponenten gehören:
- Motor-Generatoren
- Energiespeicher
- Kältemaschinen
- Kühleinheiten
- USV-Module
- Pumpen
- Geräte zur Wärmeabfuhr
- Kraftstofftanks
- Brennstoffzellen
Somit können in einem Tier-2-Rechenzentrum diese Komponenten entfernt, getauscht und gewartet werden, ohne dass es zu einer Abschaltung kommt.
Aber: Wie bei einer Tier-1-Einrichtung gibt es nur einen Strom- und Kühlpfad. Dieser Weg bleibt ein Single Point of Failure – also jener Punkt, der bei Ausfall das gesamte System lahmlegen kann.
Tier 3 bzw. Tier III
Tier 3 Rechenzentren bieten eine hohe Verfügbarkeit und ein hohes Maß an Redundanz, um die Ausfallsicherheit zu erhöhen.
Sie verfügen über zwei separate, aber vollständig redundante Strom- und Kühlpfade für die IT-Infrastruktur. Fällt einer dieser Pfade aus, kann die Strom- und Kühlversorgung nahtlos auf den anderen Pfad umgeleitet werden.
Ein Tier-III-Rechenzentrum ist somit wartungsfähig und verfügt über redundante Verteilungswege sowie redundante Komponenten (N+1).
Tier 4 bzw. Tier IV
Tier 4 Rechenzentren bieten die höchste Verfügbarkeit und Zuverlässigkeit. Sie sind vollständig redundant, da sie über mehrere unabhängige und physisch isolierte Strom- und Klimasysteme verfügen.
Durch diese Systemtrennung wird verhindert, dass beide Systeme von einer Störung betroffen sind.
Im Gegensatz zu Tier 2 und Tier 3 Data Center, stellen Rechenzentren der Stufe 4 „2N+1“ Komponenten zur Verfügung.
Sie erinnern sich: "N" steht für die Anzahl der benötigten Komponenten, damit das System läuft. In der Regel werden also doppelt so viele Komponenten aufgestellt wie notwendig (2N), plus eine weitere redundante Komponente hinzugefügt (+1).
Zum Beispiel: Wenn für ein System drei Komponenten notwendig sind, um ordnungsgemäß zu funktionieren, würde man für eine 2N+1-Redundanz sieben Komponenten einbauen.
Zwei für jede der drei notwendigen Komponenten plus eine zusätzliche redundante Komponente.
Das heißt: Ein Tier IV Rechenzentrum ist so konzipiert, dass es nur eine minimale jährliche Ausfallzeit aufweist.
Bei Wartungsarbeiten entsteht in der Regel gar keine „Downtime“.
Gibt es Garantien für die Einhaltung der Tier Vorgaben?
Rechenzentren, die eine Tier oder vergleichbare Zertifizierung besitzen, wurden auf die Einhaltung der jeweiligen Tier-Vorgaben überprüft.
Ein offizieller Anbieter dafür ist beispielsweise das Uptime Institute. Dieses führt eine Zertifizierung nach der Uptime Institute Tier Classification durch.
In Europa gibt es mit der EN50600 eine europäische Norm für Rechenzentren. Diese Norm unterscheidet vier „Verfügbarkeitsklassen“. Hier erfolgt ebenfalls eine Zertifizierung über bevollmächtigte Anbieter.
Aber auch Service Level Agreements – also Servicevereinbarungen – oder ISO-Zertifizierungen können eine Garantie darstellen.
Geben mir Service Level Agreements (SLAs) Garantien?
In einem Service Level Agreement werden die Rahmenbedingungen für wesentliche Kundenservices vereinbart.
Die dort festgeschriebenen Vereinbarungen hält das Rechenzentrum über die Vertragslaufzeit ein.
Interxion bietet beispielsweise eine Stromverfügbarkeit von 99,999% im Jahr an. Kann dieser Service nicht bereitgestellt werden, müssen Kunden dafür kompensiert werden.
Für Temperatur und Luftfeuchte, Bandbreiten sowie Anforderungen an die Umgebung und Umgebungsmessung werden zusätzliche Richtlinien vereinbart.
Auch im Bereich der Connectivity gibt es SLAs, die eine Wiederherstellung ausgefallener Connectivity in unserem Einflussbereich innerhalb bestimmter Fristen zusichert.
All diese Vereinbarungen geben Ihnen somit eine Servicegarantie, an die sich die Rechenzentren halten.
Was sagen ISO-Zertifizierungen aus?
Die ISO-Zertifizierungen sind wie eine Art Anleitung für Unternehmen, um ihre Arbeit zu organisieren und zu verbessern.
Wenn ein Unternehmen diese Zertifizierungen hat, folgt es einem standardisierten Plan. Dieser berücksichtigt alle wesentlichen internen und externen Aspekte, betroffene Parteien (Stakeholder), sowie Risiken und Chancen. Dadurch können klare Ziele gesetzt werden.
In Bezug auf Verfügbarkeit und Zuverlässigkeit ist die ISO 22301 Zertifizierung wichtig. Diese beschäftigt sich mit dem Betriebskontinuitätsmanagement.
Es geht darum, mögliche Probleme und Risiken zu identifizieren, die den Kundenservice beeinträchtigen könnten. Das heißt: Wer eine ISO 22301 Zertifizierung besitzt, hat auch einen Notfallplan für einen Rechenzentrumsausfall.
Darin wird genau niedergeschrieben, wie und wie schnell das Unternehmen wieder normal arbeiten kann, falls es zu einem Ausfall kommen sollte. Dadurch wird die Widerstandsfähigkeit des Unternehmens gegenüber Krisen gestärkt.
Experte Bernhard Pawlata: „Rechenzentrum Tier sagen mitunter nur die halbe Wahrheit“
„Für unsere Kunden ist es hilfreich, sich an Tier-Kategorien, Verfügbarkeitsklassen und Normen für Rechenzentren zu orientieren. So können sie die Anforderungen an einen Anbieter von Rechenzentrumsdienstleistungen bestimmen. Denn: Internationale Standards definieren klare Anforderungen und ermöglichen damit eine gute Vergleichbarkeit von Anbietern.“
Quality Manager Bernhard Pawlata gibt jedoch zu bedenken, dass diese grobe Einteilung für eine langfristige, objektive Bewertung nicht immer ausreicht.
Denn es gib viele Data Center, die lange vor der Veröffentlichung der Norm in Betrieb gegangen sind. Ebenso gibt es auch „junge“ Rechenzentren, die nicht zertifiziert sind, obwohl deren technisches Design eine hohe Verfügbarkeit bietet und den Großteil der Normanforderungen erfüllt. Diese Rechenzentren haben nicht zwingend eine schlechtere Verfügbarkeit.
Es gibt jedoch einen wesentlich wichtigeren Faktor, der die tatsächliche Verfügbarkeit eines Rechenzentrums ausmacht: Operational Excellence.
Diese „operative Exzellenz“ bedeutet nichts anderes als die konsequente Umsetzung und Anwendung der Unternehmensstrategie.
Ein technisch hochverfügbares Design wird die Verfügbarkeit nur dann erreichen, wenn:
- während dem Betrieb alle relevanten Einflussfaktoren bekannt sind.
- alle Risiken erkannt, vermieden oder gesteuert werden.
Das gelingt nur, wenn allen Beteiligten klare Richtlinien und Verantwortlichkeiten vermittelt werden. So können alle Personen im Unternehmen nach diesen Richtlinien und den zugeteilten Verantwortlichkeiten handeln.
Warum ist das wichtig? Weil sich seit vielen Jahren zeigt, dass menschliche Fehler überwiegend die Ursache für Ausfallszeiten sind.
Digital Realty Wien: hochverfügbares, zuverlässiges Rechenzentrum mit operativer Exzellenz
Im Digital Realty Rechenzentrum in Wien sind alle kritischen, technischen Systeme redundant ausgelegt. Das sind im Wesentlichen die Verfügbarkeit von Strom und Kälte.
Diese Systeme sind auch „concurrent maintainable“. Das heißt, während Wartungen gibt es prinzipiell keinen Serviceausfall durch ausreichend Redundanz. So können wir unsere Servicegarantien erfüllen.
Ein eigenes Engineering Team hat das Design des Digital Realty Rechenzentrums in Wien mehr als 20 Jahre stetig weiterentwickelt. So konnte die Effizienz im Bereich der Verfügbarkeit über die Zeit signifikant gesteigert werden.
„Für den Großteil unserer Kunden können wir auf einen Trend von 100% Verfügbarkeit und Einhaltung der SLAs zurückblicken. Die Erfahrungen aus über 2 Jahrzehnten Rechenzentrumsbetrieb zeigen uns wie selten, lokal und zeitlich begrenzt Serviceausfälle sind, wenn alle relevanten Aspekte und Einflüsse berücksichtigt werden“, betont Quality Manager Pawlata.
„Das beweist auch eine Gap-Analyse: In den wesentlichen Aspekten erfüllen wir hohe Tier Einstufungen und Verfügbarkeitsklassen. In einzelnen Aspekten verfolgen wir eigene Philosophien, die über die standardisierten Maßstäbe hinausreichen. “
All das zeichnet einen professionellen und unterbrechungsfreien Rechenzentrumsbetrieb aus – auch ohne Tier 4 Zertifizierung.
Sie wollen von 99,999% Verfügbarkeit profitieren?
Für unsere Kunden bieten wir eine breite Palette von Services, einschließlich Colocation bzw. Server Housing in Wien.
Damit Ihre Server jederzeit funktionieren, haben wir rund um die Uhr und jeden Tag im Jahr geschulte Techniker vor Ort. So können wir jederzeit auf die Bedürfnisse unserer Kunden eingehen.
Sie interessieren sich für unser Server Housing in Wien? Oder haben Sie Fragen zu unserem Rechenzentrum? Dann senden Sie uns gerne eine Anfrage via E-Mail (vienna.info@digitalrealty.com) oder rufen Sie uns an (01 290 36 36 0).
Herzlichst
Ihr Digital Realty-Team