Zentrale Observability

Monitoring, Analyse und Fehlerprävention aus einer Hand

Zusammenfassung

Im Laufe der letzten Jahre kam es durch den Umbau der Applikations- und Systemlandschaft auf containerisierte OpenShift-Lösungen, sowie den Zuwachs an Neukunden, zu einem enormen Wachstum der genutzten Systeme auf OpenShift-Clustern. Dies bedeutete ebenso ein erhöhtes Aufkommen an Applikationsdaten in Form von Logs und Metriken von Hardware, Platform und eigens entwickelten Applikationen. Gemeinsam mit der Software-Entwicklung, den Fachbereichen und dem Betrieb wurde mit Hilfe der Socradev-Expert:innen eine zuverlässige und sichere, zentralisierte Observability-Lösung geschaffen.

Umsetzungsdetails

Durch die Vielzahl an verschiedenen Kundenprojekten und der Betriebs- und Entwicklungsteams, ergab sich die Notwendigkeit einer modernisierten Observability-Lösung, die sowohl Monitoring, als auch Applikations-Logging und Tracing abdecken und gleichzeitig eine einfache und sichere Zugriffsmöglichkeit für berechtigte Mitarbeiter:innen sicherstellen sollte. 

Um auf einer Linie mit den eingesetzten OpenShift-Systemen zu bleiben, überlegten sich die Expert:innen von Socradev ein Konzept, das bereits vorhandene Monitoring- und Logging Instanzen der Plattform als Basis nutzt und diese um einen entsprechenden Management-Layer erweitert. Dadurch werden die vorhandenen Daten sinnvoll aggregiert und effizient gespeichert, aber auch die notwendige Effizienz gewährleistet. 

Herzstück dieser Transformation ist die Implementierung eines zentralen Dashboards, das sämtliche Monitoring- und Logging-Daten aus den verteilten Systemen in Echtzeit sichtbar macht. Dank der Integration aktueller best-of-breed Tools, die sich am Industriestandard orientieren, konnte ein hochmodernes Observability-Ökosystem etabliert werden, das sowohl ease-of-use für die Endanwender:innen bietet als auch die technische Tiefe für Expert:innen sicherstellt. Das Resultat: eine hohe Betriebsbereitschaft und ein System, das nicht nur den aktuellen Anforderungen gerecht wird, sondern auch skalierbar für zukünftige Herausforderungen bleibt.

Im Folgenden sollen die Komponenten etwas näher erläutert werden: 

  • Grafana als zentrales Visualisierungstool bildet das Rückgrat der Observability-Plattform. Ob präzises Monitoring von Infrastrukturmetriken, umfassendes Logging oder tiefgreifendes Tracing: Die anpassbaren Dashboards ermöglichen eine intuitive Darstellung komplexer Zusammenhänge und stellen einheitliche Sichten auf verteilte Systeme sicher. Benutzer:innen können sich relevante Daten in Echtzeit anzeigen lassen – bis hin zu konkreten Events auf Applikations-Ebene.
  • Die Logging-Komponente basiert auf Grafana Loki, einer leistungsstarken Lösung für zeitreihenbasiertes Logmanagement. Mit individuell konfigurierbaren Retention-Zeiten wird nicht nur die Datenhaltung optimal an die jeweiligen Compliance-Anforderungen angepasst, sondern auch der Speicherplatzverbrauch signifikant reduziert. So bleibt die Plattform performant und gleichzeitig wirtschaftlich im Betrieb.
  • Für die Metriken-Erhebung kommt Prometheus zum Einsatz, dessen Daten aggregiert über Thanos zur Langzeitarchivierung bereitgestellt werden. Die so gewonnene Detailtiefe reicht bis hinunter auf einzelne Applikationen, Container, Prozesse und Systemressourcen. Dadurch werden Engpässe und Performance-Anomalien frühzeitig erkannt und können gezielt adressiert werden.
  • Abgerundet wird das Observability-Setup durch Grafana Tempo für Distributed Tracing. Dieses ermöglicht eine granulare Analyse der Service-to-Service-Kommunikation und liefert belastbare Daten zu Response-Zeiten und Abhängigkeiten. Die daraus gewonnenen Erkenntnisse bildeten die Grundlage für gezieltes Tuning – mit einem beeindruckenden Ergebnis: Die Transaktionsrate konnte um den Faktor 10 gesteigert werden.

 

Dialog mit SocraDev

Lassen Sie uns darüber reden, hinterfragen und verändern.

Jetzt Termin vereinbaren