Status und Verfügbarkeit
Wie wir die Produktion überwachen und auf Vorfälle reagieren
Hohe Verfügbarkeit ist die Grundlage zuverlässiger Anwendungen. Wir zeigen, wie wir die Produktion überwachen, welche Tools wir verwenden und wie wir auf Probleme reagieren.
Unsere SLO (Service Level Objectives)
Messbare Servicequali tätsziele
SLOs sind konkrete Ziele, die wir einzuhalten verpflichten. Dies sind keine Versprechen, sondern messbare Metriken.
Verfügbarkeit (Uptime)
Maximal 43 Minuten Ausfall pro Monat.
Antwortzeit
95% der API-Anfragen müssen in weniger als 500 ms bearbeitet werden.
Fehlerrate
Weniger als 1 fehlgeschlagene Anfrage pro 1000.
Vorfallreaktion
Von der Vorfallserkennung bis zum Beginn der Arbeit an der Lösung.
SLOs können an Projektspezifika angepasst werden.
Monitoring- und Alarmierungs-Stack
Tools, die uns vollen Einblick in den Anwendungszustand geben
Synthetic Monitoring
Uptime Robot / Pingdom
Überprüfung der Verfügbarkeit alle 1-5 Minuten.
Application Performance Monitoring (APM)
Application Insights / New Relic
Verfolgung von Leistung: Antwortzeiten, CPU/RAM-Last.
Error Tracking
Sentry / Azure Monitor
Automatische Erfassung von JavaScript-, .NET-, SQL-Fehlern.
Logs Aggregation
Azure Log Analytics / ELK Stack
Zentralisierte Protokolle aus allen Umgebungen.
Infrastructure Monitoring
Azure Monitor / Datadog
Infrastrukturüberwachung: Server, Datenbanken, Warteschlangen.
Real User Monitoring (RUM)
Google Analytics 4 / Plausible
Echtzeitüberwachung von Benutzern: Core Web Vitals.
Beispiele für Alarme und Eskalationsrichtlinie
Automatische Alarme bei Problemen
Wir konfigurieren Alarme so, dass sie über Probleme informieren, bevor sie Benutzer beeinträchtigen.
HTTP 5xx > 1% für 5 Minuten
KritischSofortiger SMS + E-Mail-Alarm an Bereitschaftsdienst.
Antwortzeit p95 > 2s für 10 Minuten
HochE-Mail + Slack-Alarm an Team. Analyse langsamer Abfragen.
Verfügbarkeitsprüfung fehlgeschlagen (3 Versuche)
KritischSMS + E-Mail-Alarm. Health-Endpoint-Prüfung.
Speicherplatz > 85%
MittelE-Mail-Alarm. Bereinigung alter Protokolle.
Fehlgeschlagene Anmeldungen > 10 innerhalb einer Minute
HochPotenzieller Brute-Force-Angriff. Temporäre IP-Sperrung.
Eskalationsrichtlinie
Stufe 1: Bereitschaftsingenieur
Erste Reaktionslinie. Verfügbar 24/7. Reaktionszeit: bis zu 15 Minuten.
Stufe 2: Senior-Ingenieur / Teamleiter
Eskalation, wenn das Problem nicht in 30 Minuten gelöst ist.
Stufe 3: CTO / Architekturteam
Eskalation für systemische Probleme.
Wie wir auf Vorfälle reagieren
Reaktionsprozess und Kommunikation
Bereitschaftsdienst und Verfügbarkeit
Für Produktionsanwendungen führen wir 24/7-Bereitschaftsdienste durch.
- •Bereitschaftsrotation: wöchentlich, mit Backup
- •Alarme: SMS + E-Mail + Slack
- •Fernzugriff: VPN + Jump-Server + MFA
- •Playbooks: dokumentierte Verfahren
Vorfallbearbeitungsprozess
1. Erkennung und Alarm
Automatische Alarme vom Monitoring.
2. Triaging (innerhalb von 15 Minuten)
Auswirkungsbewertung, Prioritätszuweisung.
3. Schadensbegrenzung
Rollback, Neustart, Failover.
4. Ursachenanalyse
Analyse der Grundursache nach Wiederherstellung.
5. Fix und Deployment
Dauerhafte Behebung, Tests, Produktionseinsatz.
6. Post-Mortem
Vorfallbericht: was passiert ist, warum, wie wir in Zukunft vorbeugen.
Wartungsfenster
Geplante Wartungsarbeiten werden in festgelegten Zeitfenstern durchgeführt.
Standardfenster
Montag-Donnerstag, 22:00-02:00 CET.
Vorankündigung
Mindestens 48 Stunden vor dem geplanten Fenster.
Zero-Downtime-Deployment
Wenn möglich, verwenden wir Blue-Green-Deployment - ohne Ausfallzeit.
Rollback-Plan
Jedes Wartungsfenster hat einen vorbereiteten Notfall-Rollback-Plan.
Verwandte Informationen
SLA und Sicherheit
Detaillierte SLA-Reaktionsregeln, Sicherheitspraktiken.
SLA und SicherheitSiehe unsere Projekte
Beispiele für Anwendungen, die wir für Kunden überwachen.
Siehe unsere ProjekteFragen zu Monitoring und Verfügbarkeit?
Lassen Sie uns darüber sprechen, wie wir die Zuverlässigkeit Ihrer Anwendung sicherstellen können.
Kontakt aufnehmen