Spootle

Home Blog Dienste Über Kontakt Folgen

Ausfall der Dienste von gestern Mittag bis heute Vormittag

13.04.2020

Jabber, der Webchat, die Suche und die Website sind gestern ab ca. 14 Uhr bis heute um ca. 11:30 Uhr ausgefallen. Verantwortlich dafür die Summe von einem Fehler meinerseits und von Hetzner, dem Hosting-Dienstleister von Spootle. Inzwischen läuft jedoch wieder alles so wie es soll. Nachrichten, die zwischen 9:15 Uhr am 12.04.2020 und 11:30 Uhr am 13.04.2020 geschickt bzw. empfangen werden sollten, wurden dies unter Umständen nicht. Deswegen empfiehlt es sich, dass du dich erkundigst, ob deine Nachrichten in dem Zeitraum angekommen sind und ob dir in dem Zeitraum Nachrichten geschickt wurden.

Die entstandenen Unannehmlichkeiten tun mir aufrichtig Leid.

Interna - für die IT-Interessierten

Hier die ganze Geschichte, für die, die es interessiert.

Wie alles begann - Routine-Arbeiten

Anfangs habe ich einfach einige Routine-Arbeiten am Server durchgeführt: Spam-Konten gelöscht, die sich kurz zuvor registiert hatten und das Update von ejabberd 20.01 auf 20.02 durchegführt. Danach konnte man sich nicht mehr mit den bestehenden Jabber-Konten an ejabberd anmelden. Da ich zu dem Zeitpunkt nicht viel Zeit hatte, habe ich es voreilig auf das Update geschoben und beschlossen, ein Backup einzuspielen und mich später um das Update zu kümmern.

Wie aus vielen kleinen Fehlern ein großer wird

Gesagt, getan: Server heruntergefahren und bei Hetzner im Admin-Panel eingeloggt und versucht ein neues Backup anzulegen. Hetzner warf mir aber nur eine Fehlermeldung an den Kopf, dass das gescheitert sei. Im Stress wie ich war, habe ich also einfach versucht, das Backup, das automatisch ca. zwei Stunden vor meinen Arbeiten am Server erstellt worden war, einzuspielen. Das scheiterte aber auch. Was nicht scheiterte, war den Datenträger des Servers zu löschen. Also stand ich da mit einem Blanko-Server und es ging gar nichts mehr. Habe also etwas gewartet, es nochmal versucht und als das immer noch nicht ging, dem Support geschrieben. Der hat aber bis jetzt nicht geantwortet.

Heute habe ich es dann nochmal probiert und zum Glück konnte ich das Backup dann wie vorgesehen einspielen. Webchat, Suche und Website waren schnell wieder online, aber in Jabber konnte man sich immer noch nicht einloggen. Ein Blick in die Error-Logs hat mir auch recht deutlich gesagt warum: ejabberd konnte sich nicht gegen MariaDB authetifizieren. Ein schneller Blick in die Konfig zeigt auch warum: Es war kein Passwort für das entsprechende Datenbank-Konto gesetzt. Also habe ich das Passwort gesetzt, ejabberd neu geladen und damit war auch der Fehler behoben. Alles lief wieder.

Es kommt die Frage auf, warum kein Passwort für MariaDB in der ejabberd-Konfig gesetzt war. Da muss ich etwas ausholen: Wegen der aktuellen Umstände (Corona) hatte ich einige Wochen zuvor begonnen, ejabberd für Jitsi Meet vorzubereiten. Da aber dann haufenweise Jitsi-Server aus dem Boden schossen und mir die Dokumentation zu unaufschlussreich war, wenn man nicht das All-in-one-Bundle nahm, habe ich mich dann doch gegen eine Installation entschieden. Letzte Woche habe ich dann ein Backup der ejabberd-Konfiguration von direkt vor den Anpassungen für Jitsi Meet eingespielt. So weit, so gut. Aber natürlich hatte ich alle Passwörter, in dem Fall die für MariaDB, aus dem Konfigurations-Backup entfernt, wie ich es normalerweise mache. In dem Moment des Zurückspielens habe ich da aber natürlich nicht drangedacht und der Service lief dann auch trotz reload, von dem ich mir eigentlich sicher bin, ihn gemacht zu haben, bis gestern nach dem Update weiter. Und da nahm die ganze Geschichte ihren unglücklichen Lauf, als mein Trugschluss, dass das Update für den Fehler verantwortlich war und der Fehler bei Hetzner den Ausfall verursachten. Wenn man an Schicksal glaubt, dann habe ich gestern und heute davon ordentlich eins ausgewischt bekommen.

Im Endeffekt bin ich froh, dass wieder alles läuft und hoffe, dass du nicht zu große Unannehmlichkeiten hattest.

Einen schönen Abend noch,

Jeybe

Update vom 15.04.2020: Hetzner hat inzwischen (gestern, 14.04.2020, 11:06 Uhr) geantwortet und bestätigt, dass es einen temporären Fehler des Snapshot-Systems gab, der mittlerweile behoben ist.