Status und Verfügbarkeit

Wie wir die Produktion überwachen und auf Vorfälle reagieren

Hohe Verfügbarkeit ist die Grundlage zuverlässiger Anwendungen. Wir zeigen, wie wir die Produktion überwachen, welche Tools wir verwenden und wie wir auf Probleme reagieren.

Unsere SLO (Service Level Objectives)

Messbare Servicequali tätsziele

SLOs sind konkrete Ziele, die wir einzuhalten verpflichten. Dies sind keine Versprechen, sondern messbare Metriken.

Verfügbarkeit (Uptime)

99,9% pro Monat

Maximal 43 Minuten Ausfall pro Monat.

Antwortzeit

< 500ms (p95)

95% der API-Anfragen müssen in weniger als 500 ms bearbeitet werden.

Fehlerrate

< 0,1%

Weniger als 1 fehlgeschlagene Anfrage pro 1000.

Vorfallreaktion

< 15 Minuten

Von der Vorfallserkennung bis zum Beginn der Arbeit an der Lösung.

SLOs können an Projektspezifika angepasst werden.

Monitoring- und Alarmierungs-Stack

Tools, die uns vollen Einblick in den Anwendungszustand geben

Synthetic Monitoring

Uptime Robot / Pingdom

Überprüfung der Verfügbarkeit alle 1-5 Minuten.

Application Performance Monitoring (APM)

Application Insights / New Relic

Verfolgung von Leistung: Antwortzeiten, CPU/RAM-Last.

Error Tracking

Sentry / Azure Monitor

Automatische Erfassung von JavaScript-, .NET-, SQL-Fehlern.

Logs Aggregation

Azure Log Analytics / ELK Stack

Zentralisierte Protokolle aus allen Umgebungen.

Infrastructure Monitoring

Azure Monitor / Datadog

Infrastrukturüberwachung: Server, Datenbanken, Warteschlangen.

Real User Monitoring (RUM)

Google Analytics 4 / Plausible

Echtzeitüberwachung von Benutzern: Core Web Vitals.

Beispiele für Alarme und Eskalationsrichtlinie

Automatische Alarme bei Problemen

Wir konfigurieren Alarme so, dass sie über Probleme informieren, bevor sie Benutzer beeinträchtigen.

HTTP 5xx > 1% für 5 Minuten

Kritisch

Sofortiger SMS + E-Mail-Alarm an Bereitschaftsdienst.

Antwortzeit p95 > 2s für 10 Minuten

Hoch

E-Mail + Slack-Alarm an Team. Analyse langsamer Abfragen.

Verfügbarkeitsprüfung fehlgeschlagen (3 Versuche)

Kritisch

SMS + E-Mail-Alarm. Health-Endpoint-Prüfung.

Speicherplatz > 85%

Mittel

E-Mail-Alarm. Bereinigung alter Protokolle.

Fehlgeschlagene Anmeldungen > 10 innerhalb einer Minute

Hoch

Potenzieller Brute-Force-Angriff. Temporäre IP-Sperrung.

Eskalationsrichtlinie

Stufe 1: Bereitschaftsingenieur

Erste Reaktionslinie. Verfügbar 24/7. Reaktionszeit: bis zu 15 Minuten.

Stufe 2: Senior-Ingenieur / Teamleiter

Eskalation, wenn das Problem nicht in 30 Minuten gelöst ist.

Stufe 3: CTO / Architekturteam

Eskalation für systemische Probleme.

Wie wir auf Vorfälle reagieren

Reaktionsprozess und Kommunikation

Bereitschaftsdienst und Verfügbarkeit

Für Produktionsanwendungen führen wir 24/7-Bereitschaftsdienste durch.

•Bereitschaftsrotation: wöchentlich, mit Backup
•Alarme: SMS + E-Mail + Slack
•Fernzugriff: VPN + Jump-Server + MFA
•Playbooks: dokumentierte Verfahren

Vorfallbearbeitungsprozess

1. Erkennung und Alarm

Automatische Alarme vom Monitoring.

2. Triaging (innerhalb von 15 Minuten)

Auswirkungsbewertung, Prioritätszuweisung.

3. Schadensbegrenzung

Rollback, Neustart, Failover.

4. Ursachenanalyse

Analyse der Grundursache nach Wiederherstellung.

5. Fix und Deployment

Dauerhafte Behebung, Tests, Produktionseinsatz.

6. Post-Mortem

Vorfallbericht: was passiert ist, warum, wie wir in Zukunft vorbeugen.

Wartungsfenster

Geplante Wartungsarbeiten werden in festgelegten Zeitfenstern durchgeführt.

Standardfenster

Montag-Donnerstag, 22:00-02:00 CET.

Vorankündigung

Mindestens 48 Stunden vor dem geplanten Fenster.

Zero-Downtime-Deployment

Wenn möglich, verwenden wir Blue-Green-Deployment - ohne Ausfallzeit.

Rollback-Plan

Jedes Wartungsfenster hat einen vorbereiteten Notfall-Rollback-Plan.

Fragen zu Monitoring und Verfügbarkeit?

Lassen Sie uns darüber sprechen, wie wir die Zuverlässigkeit Ihrer Anwendung sicherstellen können.

Kontakt aufnehmen