benjamin weinlich
← Journal

#Monitoring

8 Beiträge zu diesem Thema, neueste zuerst.

1. Juli 2026 Frage

Kann ausgerechnet die eigene Datensicherung den ganzen Betrieb lahmlegen?

Ja, die eigene Datensicherung kann den ganzen Betrieb lahmlegen, wenn niemand prüft, ob sie sich auch selbst aufräumt. Bei uns lief die Aufräum-Automatik still aus: statt sieben Tage sammelten sich vierundfünfzig, 208 GB alte Sicherungen, bis die Platte zu hundert Prozent voll war und Docker keinen einzigen Container mehr starten konnte. Alles, was in der Hetzner-Cloud lief, war mit einem Schlag offline. Eine Sicherung, die niemand kontrolliert, wird irgendwann selbst die Gefahr, vor der sie schützen sollte.

Kann ein falscher Gesundheitscheck einen laufenden Dienst lahmlegen?

Ein falscher Gesundheitscheck kann einen laufenden Dienst lahmlegen, und genau das ist mir passiert. Als ich eine alte Domain stilllegte, prüfte der Healthcheck plötzlich die falsche Seite, meldete den Container als krank, und Traefik nahm daraufhin alle drei gesunden Webseiten vom Netz, obwohl der Server intern weiter sauber auslieferte. Erst der Blick auf den Health-Status statt auf die Konfiguration brachte mich zur Ursache. Ein Test, der das Falsche prüft, ist gefährlicher als gar keiner, weil er Gesundes für krank erklärt.

Reicht es, nur die Startseite zu ueberwachen?

Nur die Startseite zu überwachen reicht nicht, denn ein Haus kann eine offene Tür und trotzdem ein verschlossenes Zimmer haben. Bei einem unserer Auftritte lief die Startseite einwandfrei, doch das Impressum war über einen Routing-Fehler nicht erreichbar, also ausgerechnet eine Pflichtseite, deren Fehlen rechtlich teuer wird. Seitdem legt unsere Überwachung mit Uptime Kuma für jeden Auftritt auch eine Unterseite an, nicht nur die Homepage. Wer nur die Vordertür prüft, übersieht das kaputte Zimmer dahinter.

30. Mai 2026 Frage

Was übersieht eine Überwachung, die nur prüft ob ein Dienst läuft?

Eine Überwachung, die nur prüft ob ein Dienst läuft, übersieht den Dienst, der läuft und trotzdem nichts Frisches liefert. Bei einer Gesundheitsprüfung fiel mir auf, dass unsere nächtliche Kopie drei Tage alt war, während ein Cron alle drei Minuten per curl brav meldete, alles sei erreichbar. Die Datei war da, nur eben von vorgestern. Gesund heißt nicht, dass etwas atmet, sondern dass es das Richtige tut.

16. Mai 2026 Frage

Warum rebootet ein Server, an dem niemand etwas geaendert hat?

Ein Server, an dem niemand etwas geaendert hat, rebootet meist, weil etwas Vergessenes im Hintergrund Amok laeuft. Bei uns war es ein alter Entwicklungs-Dienst fuer Directus, der sein Arbeitsverzeichnis nicht mehr fand und sich deshalb neu startete, wieder und wieder, ueber fuenfundsiebzigtausend Mal. Das frass den Speicher, bis die Maschine von selbst neu startete. Im Log stand alles, man musste nur nachsehen. Ein abgeschalteter Dienst ist erst dann wirklich tot, wenn ihn niemand mehr neu startet.

Warum darf ein Health-Check niemals eine kostenpflichtige API aufrufen?

Weil Docker und der Reverse Proxy so einen Endpunkt tausende Male am Tag abfragen. Bei mir hat ein Health-Check in einem Dienst bei jedem Aufruf eine kostenpflichtige Such-API (Tavily) angestoßen. In vierundzwanzig Stunden waren das über viertausend Aufrufe und rund zehn Euro, ohne dass die eigentliche Funktion ein einziges Mal lief. Seitdem prüft ein Health-Check bei mir nur lokal: Läuft der Prozess, antwortet er. Nichts, was Geld kostet oder nach außen telefoniert.