redbulb

Verbesserung unserer Server-Überwachung

Lesezeit: 2 Minuten

Herausforderung

Der zuverlässige Betrieb unserer Serversysteme ist uns sehr wichtig. Ein Server und alle darauf installierten Dienste sollten möglichst 24 Stunden am Tag ohne Unterbrechung funktionieren. Falls es doch einmal zu einem Problem, wie einem Hardwaredefekt kommen sollte, müssen wir unmittelbar reagieren und den Schaden schnellstmöglich beheben.

Um dieses Ziel zu erreichen, müssen wir die Server und Dienste stets im Blick behalten. Unser umfangreiches Überwachungssystem verfolgt daher das Ziel eines permanenten Monitorings und Alarmierung unserer Mitarbeiter im Fehlerfall. Um unsere Systeme bestmöglichst überwachen zu können, versuchen wir, das beste am Markt erhältliche Überwachungssystem zu verwenden.

Unsere Migration von Icinga zu Prometheus

Bislang haben wir für die Überwachung die Software Icinga verwendet, welche ursprünglich aus der bekannten Systemüberwachungsanwendung Nagios hervor ging. Der Einsatz von Icinga war inzwischen jedoch nicht mehr zeitgemäß und für uns mit verschiedenen technischen Einschränkungen verbunden. So mussten wir viele Überwachungsparameter manuell konfigurieren und bei Änderungen, z.B. der typischen Serverlast, ständig nachjustieren. Zudem waren die Möglichkeiten der Alarmierung im Fehlerfall wenig flexibel, was zu Fehlalarmen, doppelten Einsätzen unserer Mitarbeiter und ähnlichen Problemen führte.

Wir haben uns daher bereits vor ca. einem Jahr dazu entschieden, unsere Serverüberwachung auf eine komplette neue Basis auf Grundlage der Software Prometheus zu stellen und viele Monate intensiv an einer Migration hin zur neuen Software gearbeitet. Nachdem wir die alte und die neue Überwachungssoftware längere Zeit parallel im Einsatz hatten, möchten wir diese nun offiziell vorstellen.

Durch die Umstellung auf Prometheus verbessern wir unsere Überwachung und Alarmierung erheblich. Insbesondere erkennen wir nun Probleme, wie z.B. eine veränderte Lüfterdrehzahl, auch ohne manuelle Nachjustierung, automatisch anhand historischer Daten. Wir haben zudem die Möglichkeit, auch komplexere Problemfälle frühzeitig zu erkennen (beispielsweise eine Festplattenpartition, die voraussichtlich erst in mehreren Tagen voll läuft) und feingranular auf besondere Kundenbedürfnisse und Spezialfälle einzugehen. Dadurch können wir Probleme noch schneller erkennen und gezielter reagieren, als dies bislang der Fall war.

Schnellere und zuverlässigere Alarmierung

Mit der Umstellung einher geht auch eine deutliche Verbesserung der Alarmierung unserer Administratoren im Fehlerfall. Hierzu setzen wir nun auf VictorOps, einen der größten Anbieter von Incident Response Management Systemen weltweit. Durch die Einbindung von VictorOps konnten wir jetzt auch komplexe Bereitschaftsszenarien implementieren (beispielsweise Parallelruf) und die Anzahl und Qualität der Alarmierungskanäle verbessern, so dass Reaktionen auf Ereignisse noch schneller und gezielter erfolgen als bisher.

Vorteile durch das neue Überwachungssystem

Der Einsatz von Prometheus und VictorOps führt zu zahlreichen Vorteilen:

  • Wir erfassen jetzt noch mehr Messwerte als vorher.
  • Bessere Skalierung in großen Umgebungen. Paralleler Einsatz mehrerer Überwachungsinstanzen möglich.
  • Darstellung von Messwerten in Graphen über längeren Zeitraum und mit vielen Details.
  • Automatische Anpassung der Überwachung an geändertes Serververhalten.
  • Weniger Fehlalarme, dadurch Entlastung unserer Mitarbeiter.
  • Detaillierte Benachrichtigungen für gezieltere Problemlösung.
  • Sofortige Benachrichtigung beim Auftreten von Problemen.

Fazit

Durch den Umstieg auf Prometheus als neue Überwachungslösung erkennen wir auftretende Probleme noch schneller und können besser und gezielter reagieren. Dies verbessert die Zuverlässigkeit unserer Systeme und kommt Ihnen dadurch direkt in Form von noch geringeren Downtimes zu gute.

Schreiben Sie einen Kommentar