Become a Creator today!Start creating today - Share your story with the world!
Start for free
00:00:00
00:00:01
Monitoring, Alerting und Logging: Warum Daten erst wertvoll werden, wenn man daraus handelt image

Monitoring, Alerting und Logging: Warum Daten erst wertvoll werden, wenn man daraus handelt

S1 E21 · Secrets Not Included
Avatar
24 Plays10 days ago

In Folge 21 von Secrets Not Included sprechen Ole und Daniel über Logging, Monitoring, Alerting und datengetriebene Entscheidungen. Es geht um Request-IDs, Dashboards, Message Queues, CVE-Metriken, Eskalationsketten und die Frage, warum gutes Monitoring nicht nur Systeme stabiler macht, sondern auch Teams ruhiger schlafen lässt.

Recommended
Transcript

Einführung und Thema der Episode

00:00:01
Kai Ole Hartwig
Hallo und willkommen zurück zu Secrets Not Included, wie immer mit Daniel und Ole.
00:00:07
Kai Ole Hartwig
Dieses Mal zur schon 21.
00:00:10
Kai Ole Hartwig
Folge.
00:00:11
Kai Ole Hartwig
Wir haben vergessen, Kuchen zu backen, letzte Woche.
00:00:16
Kai Ole Hartwig
Also backt ihn euch selber, wenn ihr die letzte Folge gehört habt oder holt es schnell nach.
00:00:21
Kai Ole Hartwig
Und in dieser Woche soll es um das beliebte Thema Monitoring, ich kann schon wieder nicht sprechen, also um Monitoring gehen.

Unterscheidung zwischen Monitoring und Alerting

00:00:31
Kai Ole Hartwig
Perfekt, keine Fremdsworte heute, Daniel, ja?
00:00:35
Daniel Langemann
Ich versuch's, ich versuch's.
00:00:37
Kai Ole Hartwig
Also du die Fremdsworte, ich dann ohne Fremdsworte.
00:00:39
Daniel Langemann
Also das Aufzeichnen von Events, genannt auch Monitoring.
00:00:43
Daniel Langemann
Nein.
00:00:47
Daniel Langemann
Ja, also wir hatten uns das Thema Monitoring herausgesucht.

Bedeutung von Logging und Datenaggregation

00:00:51
Daniel Langemann
Ich habe keine Ahnung, wo wir gehen, oder wir haben keinen Plan, wo wir hinwollen, thematisch.
00:00:57
Daniel Langemann
Das ist schon mal gut, aber vielleicht stecken wir erst mal ab, was ist denn, also, wo sehen wir Monitoring oder was ist Monitoring?
00:01:03
Daniel Langemann
Weil ich zum Beispiel, ich bin jemand, der in Projekten gerne das auch durcheinander oder mischt, so Alerting mit Monitoring vermische ich gerne.
00:01:13
Daniel Langemann
Also, wenn ich darüber rede und rede von Monitoring, meine aber Alerting, und das eine ist ja nicht das andere.
00:01:20
Kai Ole Hartwig
Jetzt steckst du direkt so tief in diese Grundsatzdefinition ein.
00:01:22
Daniel Langemann
Ja, keine Fachwörter, aber...
00:01:25
Daniel Langemann
Und deswegen hätte ich jetzt gesagt, wir reden erstmal nur über Logging, heißt, was heißt das für dich?
00:01:31
Daniel Langemann
Also sind das Applikations-Events, die zum Beispiel irgendwo, wo jemand reingucken kann, sagen kann, guck mal, die Kunden kaufen, kaufen, kaufen.
00:01:39
Daniel Langemann
Oder ist das nur für das System darunter, dass der Admin reinguckt und sagt, guck mal, CPU ist bei 80%, wir müssen ein bisschen skalieren.
00:01:48
Daniel Langemann
Festplatte ist toll.
00:01:49
Kai Ole Hartwig
Ja.
00:01:50
Daniel Langemann
Also es gibt ja super viel, was du loggen kannst und auch viel zu viel.
00:01:54
Kai Ole Hartwig
Loggen ist aber ja auch wieder was anderes als Monitoring.
00:01:58
Kai Ole Hartwig
Und was jetzt gerade komplett gefehlt hat, eigentlich eins meiner Lieblingsthemen, nämlich was macht man denn eigentlich mit dem ganzen Spaß Richtung Data-Driven Decisions?
00:02:10
Kai Ole Hartwig
Also aus dem Monitoring, Alerting, Logging oder Logging, Monitoring, Alerting Richtung datengetriebene Entscheidungen treffen, um jetzt nochmal eine sinnvolle Reihenfolge vielleicht festzulegen, wo man gedanklich einsteigt.
00:02:16
Daniel Langemann
Richtig, wenn nichts passiert, dann passieren die Events halt woanders.
00:02:18
Daniel Langemann
Keine nächtlichen Einsätze.
00:02:27
Kai Ole Hartwig
Also man muss ja keine Gedanken sich über das Alerting machen, wenn man kein Monitoring hat, wenn man kein Logging hat.
00:02:37
Kai Ole Hartwig
Ja, also ich meine, dann ist das E-Learning auch sehr ruhig.
00:02:41
Kai Ole Hartwig
Also, ich sehe Vorteile.
00:02:49
Kai Ole Hartwig
Also, ja, Logging.
00:02:52
Kai Ole Hartwig
Also ich sage jetzt mal, Daten haben ist erstmal besser als Daten brauchen.
00:02:57
Daniel Langemann
Ja.
00:02:57
Daniel Langemann
Mhm.
00:03:00
Kai Ole Hartwig
Jetzt gibt es natürlich verschiedene Ebenen.
00:03:02
Kai Ole Hartwig
Ich würde grundsätzlich immer in der Applikation loggen.
00:03:06
Kai Ole Hartwig
was Fehler angeht.
00:03:08
Kai Ole Hartwig
Je schwerwiegender die Fehler sind, je eher würde ich es loggen.
00:03:13
Kai Ole Hartwig
Also eine Info- oder ein Deprecated hat hoffentlich im Log vom Produktivsystem nichts zu suchen, zumindest mal was die Applikation angeht.
00:03:25
Kai Ole Hartwig
Das sollte, also meiner Meinung nach, sollte man Deprecated Functions auch nie in einem Produktivsystem haben.
00:03:33
Kai Ole Hartwig
Aber das ist vielleicht ein anderes Thema.
00:03:37
Daniel Langemann
Ja, je nachdem, was du nutzt, kannst du das ja gar nicht rausschmeißen.
00:03:40
Daniel Langemann
Sagen wir, du hast eine LTS-Version von irgendeinem Framework oder so.
00:03:45
Daniel Langemann
Da sind ja auch schon Meldungen mit drin, wo du sagst, wenn ich die wegmache, bin ich dann auf der nächsten Version.
00:03:50
Daniel Langemann
Aber ich kann noch gar nicht upgraden oder irgendwelche Constraints verhindern das gerade.
00:03:54
Daniel Langemann
Also... Hm.
00:03:54
Kai Ole Hartwig
Ja, ich sage ja, das ist ein Thema für, wir lagern das mal aus in eine andere Folge.
00:04:00
Kai Ole Hartwig
Ich glaube, da können wir sehr lange drüber gehen.
00:04:07
Kai Ole Hartwig
Meine Vision ist immer, keine Deprecated-Meldungen zu haben.
00:04:11
Daniel Langemann
Das ist das Ziel.
00:04:11
Daniel Langemann
Message Queue.
00:04:12
Daniel Langemann
Asynchron.
00:04:12
Kai Ole Hartwig
So, jetzt aber zurück zum Logging.
00:04:15
Kai Ole Hartwig
Und dann haben wir natürlich noch ganz viele andere nette Komponenten neben der Applikation.
00:04:19
Kai Ole Hartwig
Also fangen wir beim Web-Server an, dann haben wir noch die Firewall, dann vielleicht auch eine Web-Application-Firewall, dann haben wir sicherlich noch Systeme wie eine Datenbank rumfliegen oder wie ein Key-Value-System.
00:04:38
Kai Ole Hartwig
Message Queue, ja, so irgendein Suchserver, eine Vektordatenbank.
00:04:44
Kai Ole Hartwig
Mir fallen viele Dinge ein, die da noch ringsherum fliegen.
00:04:48
Kai Ole Hartwig
Und aus einer Sicht sollten die erst einmal alle loggen.
00:04:52
Kai Ole Hartwig
Und auch so loggen, dass diese Daten am Tagesende aggregiert, aggregierbar sind, wenn wir aufs Logging schauen.
00:05:07
Kai Ole Hartwig
Heißt, ich schreibe die vielleicht an eine Stelle, das ist absichtlich sehr offen, wo ein anderer Dienst darauf zugreifen könnte, wenn er denn existiert.

Praxisbeispiele für Monitoring und Alerting

00:05:20
Daniel Langemann
In Minecraft.
00:05:24
Daniel Langemann
Sorry.
00:05:27
Kai Ole Hartwig
Ja, meinetwegen schreibe auch die Logdaten alle nach Minecraft weg.
00:05:30
Kai Ole Hartwig
Ich wüsste spontan nicht, wie das geht.
00:05:33
Daniel Langemann
Da gibt es bestimmt jemanden, der auch da was baut.
00:05:34
Daniel Langemann
Also...
00:05:35
Kai Ole Hartwig
Aber wir können ja mal die KI fragen, was es da an Möglichkeiten gibt.
00:05:40
Daniel Langemann
Bestimmt.
00:05:40
Daniel Langemann
Je nach... Ja.
00:05:41
Daniel Langemann
Ja.
00:05:42
Kai Ole Hartwig
Baut es dann automatisch die Steine da?
00:05:45
Kai Ole Hartwig
Steine.
00:05:50
Kai Ole Hartwig
Ich habe aber gelernt, die Minecraft-Welt... Meine Kinder spielen ja Minecraft, beide.
00:05:56
Kai Ole Hartwig
Die Minecraft-Welt endet am Max-Integer-Wert.
00:06:04
Kai Ole Hartwig
Fand ich enttäuschend.
00:06:06
Kai Ole Hartwig
Und dann bricht die auch zusammen.
00:06:09
Kai Ole Hartwig
Das fand ich auch sehr spannend.
00:06:12
Daniel Langemann
Echt?
00:06:12
Daniel Langemann
Also so weit bin ich gekommen, aber cool.
00:06:13
Daniel Langemann
Tö, tö.
00:06:14
Kai Ole Hartwig
Ja, dann geht immer mehr kaputt.
00:06:15
Kai Ole Hartwig
Also du kannst diese Barriere wohl überwinden.
00:06:19
Kai Ole Hartwig
Ich glaube nicht auf der Switch, aber auf dem Rechner.
00:06:22
Kai Ole Hartwig
Und dann geht tatsächlich diese Welt nach und nach kaputt, weil die ganze Mathematik kaputt geht.
00:06:33
Kai Ole Hartwig
Logischerweise, das Datenbankfeld ist zu klein.
00:06:36
Kai Ole Hartwig
Ich kenne da ja eine einfache Möglichkeit, das zu beheben.
00:06:41
Kai Ole Hartwig
Anyway, falsches Thema.
00:06:45
Daniel Langemann
Hmm.
00:06:46
Kai Ole Hartwig
Oder vielleicht auch nicht.
00:06:47
Kai Ole Hartwig
Es gehört ja auch zum Monitoring festzustellen, hey, wir haben jetzt so viele Einträge in der Datenbank in einem bestimmten Feld, dass wir keine weiteren Einträge mehr schreiben können.
00:06:59
Kai Ole Hartwig
Das Datenbankfeld ist zu klein geworden.
00:07:03
Kai Ole Hartwig
Das hatten wir nämlich tatsächlich schon mal.
00:07:04
Kai Ole Hartwig
Das ist ein lustiges Phänomen in so einem CMS, wenn deine Datenbank auf einmal keine neuen Seiten anlegt oder keine neuen Inhaltselemente mehr und die immer verschwinden.
00:07:18
Kai Ole Hartwig
Ja, wir nennen nennen die da direkt höhere.
00:07:21
Daniel Langemann
Die Moderatoren waren bestimmt sehr begeistert.
00:07:23
Daniel Langemann
Oder Redakteure.
00:07:23
Daniel Langemann
Mhm.
00:07:30
Kai Ole Hartwig
Ja, und da war es tatsächlich so, es gab kein Monitoring darauf.
00:07:35
Kai Ole Hartwig
Es hat einfach niemand mitbekommen.
00:07:39
Kai Ole Hartwig
Jetzt muss man dazu sagen, da war klare Trennung von Verantwortlichkeiten.
00:07:44
Kai Ole Hartwig
Wir stellen die Applikation bereit, der Betrieb macht jemand anderes, inklusive Monitoring, Alerting und hast du nicht gesehen.
00:07:51
Kai Ole Hartwig
Ja.
00:07:54
Daniel Langemann
Aber das ist ein gutes Beispiel.
00:07:55
Daniel Langemann
Was ist das jetzt genau?
00:07:56
Daniel Langemann
Weil, also für mich wäre das Logging, dass entweder die Datenbank oder irgendwo eine Exception fliegt und das in einem Log landet, somit hier, guck mal, konnte nicht speichern, weil, Fehler, bla bla bla, Datenbank hat gemeldet.
00:08:11
Daniel Langemann
Das wäre ja so das Logging.
00:08:14
Daniel Langemann
Das Monitoring würde das ja irgendwo sichtbar machen.
00:08:14
Kai Ole Hartwig
Genau.
00:08:16
Daniel Langemann
Entweder gibt es dann zum Beispiel, weiß ich nicht, irgendein Dashboard, wo dann Sachen aufploppen, wo es sagt, weiß ich nicht, x Fehler in den letzten 5 Minuten, wo du so ein High-Level-View drauf hast und sagen kannst, guck mal, da sind die Punkte, wo es Probleme gibt.
00:08:31
Daniel Langemann
Oder wie ist das für dich?
00:08:35
Kai Ole Hartwig
Ja, genau.
00:08:37
Kai Ole Hartwig
Jetzt müssen wir vielleicht nochmal, das ist so ein klassisches Ding, wo ich sage, naja, das ist so eine DevOps, SRE-Rolle irgendwo, die sich genau um so Themen kümmert.
00:08:48
Kai Ole Hartwig
Und damals, das ist jetzt auch schon ein bisschen her, war es noch so, das war halt klassische Betriebsdenke.
00:08:56
Kai Ole Hartwig
Da gibt es Ops und da gibt es Entwicklung, also Dev.
00:08:59
Kai Ole Hartwig
Und das ist getrennt und die reden nur miteinander, wenn Dinge nicht funktionieren.
00:09:05
Daniel Langemann
Und wenn man sich sicher ist, dass die anderen schuld sind.
00:09:08
Kai Ole Hartwig
Genau.
00:09:09
Kai Ole Hartwig
Und ansonsten redet man nicht miteinander.
00:09:11
Kai Ole Hartwig
Und es gab halt kein, weiß ich nicht mehr, ob es Logging gab.
00:09:16
Kai Ole Hartwig
Ich glaube nicht in der Form für die Datenbank, weil sonst hätte man ja mitbekommen, da ploppt was.
00:09:22
Kai Ole Hartwig
Also sonst hätte man mitbekommen können, da ploppt was.
00:09:24
Kai Ole Hartwig
Und Monitoring gab es nämlich auch nicht so.
00:09:26
Kai Ole Hartwig
Für mich ist nämlich das erstmal Schreiben, das Logging, logischerweise klingt das so, das Aggregieren und Zusammenführen
00:09:36
Kai Ole Hartwig
ist dann für mich klassisches Monitoring.
00:09:41
Kai Ole Hartwig
Ich kann auf Daten draufschauen, wenn ich das möchte und die werden auch zusammengeführt.
00:09:46
Kai Ole Hartwig
Ich finde, das ist immer ganz wichtig.
00:09:48
Kai Ole Hartwig
Ich finde, wenn man die Daten nicht zusammenführt, dann ist es für mich noch kein Monitoring.
00:09:54
Kai Ole Hartwig
Wenn jeder Service oder jeder Server auf Eintal alleine vor sich hinschreibt und diese Daten landen nirgendwo, die werden nirgendwo zusammengeführt, dann ist das
00:10:04
Daniel Langemann
Du musst zum Beispiel in 20 unterschiedlichen Logdateien oder irgendwo nachgucken, um dann Sachen zusammenzufinden, ja.
00:10:11
Kai Ole Hartwig
Genau, dann ist das für mich noch klassisches Logging und noch kein Monitoring.
00:10:15
Daniel Langemann
Mhm.
00:10:16
Kai Ole Hartwig
Ich sage mal, bei Monitoring habe ich halt irgendwie ein Elk-Stack und ein Grafana oder meinetwegen ein Loki oder so.
00:10:24
Kai Ole Hartwig
Da stehen irgendetwas in der Richtung, wo die Daten zusammenfließen, wo ich sie durchsuchen kann, wo ich sie mir anschauen kann und im Zweifelsfall, wenn es schön ist, auch noch netterweise vielleicht ein bisschen grafisch aufbereiten kann und ein Dashboard habe, wo ich
00:10:40
Daniel Langemann
was zum Beispiel beim Debugging noch echt sehr angenehm ist, wenn du dann Sachen hast, also wenn die Sachen aufbereitet werden und zum Beispiel eine Request-ID durch mehrere Systeme durch verfolgbar ist.
00:10:49
Kai Ole Hartwig
Ja.
00:10:50
Daniel Langemann
Also das habe ich ein paar Mal erleben dürfen, oder selber noch nicht gebaut, aber immer erleben dürfen.
00:10:56
Daniel Langemann
Das ist super, dass du dann sagen kannst, ich habe hier einen Fehler, irgendwo taucht ein Fehler auf und du schmeißt diese Request-ID irgendwo rein und siehst dann auf einmal wieder, also diese eine Request durchs ganze System geporzelt ist.
00:11:09
Daniel Langemann
Und dann hast du... Also das ist, denke ich mal, das, was du mit aggregieren meinst.
00:11:13
Kai Ole Hartwig
Ja, ich meine, das ist quasi die Komfortfunktion

Überwachungstools und Datenintegration

00:11:17
Kai Ole Hartwig
für mich mit schöner Wohnen.
00:11:18
Kai Ole Hartwig
Da habe ich auch schon echt Diskussionen darüber geführt, ob denn so eine Request-ID nicht vielleicht ein personenbezogenes Datum ist und einen Nutzer identifizierbar macht.
00:11:29
Daniel Langemann
Nee, weil der nächste Request hat ja wieder eine andere.
00:11:32
Daniel Langemann
Und Und ich die nicht in Verbindung miteinander bringen kann.
00:11:35
Daniel Langemann
Also, na...
00:11:40
Daniel Langemann
Wollen wir Ragebait machen?
00:11:43
Daniel Langemann
Komm Ole, es platzt gleich aus dir heraus.
00:11:46
Daniel Langemann
Ja.
00:11:47
Kai Ole Hartwig
Ich möchte da jetzt nicht tiefer drauf eingehen.
00:11:49
Kai Ole Hartwig
Meine Meinung ist, so eine Request-ID ist das Mittel der Wahl.
00:11:56
Kai Ole Hartwig
Und ich bin auch der Meinung, Entwickler haben Zugriff auf so etwas.
00:11:58
Kai Ole Hartwig
Auch das ist eine Meinung, die nicht alle teilen auf dieser Kugel, wo wir uns bewegen.
00:12:05
Kai Ole Hartwig
Es gibt Menschen, die der Meinung sind, dass Logdaten ja nichts für Entwickler sind.
00:12:10
Kai Ole Hartwig
Anyway, darauf möchte ich jetzt auch gar nicht eingehen, weil dann nachher werde ich böse.
00:12:15
Daniel Langemann
Nee, wir wollen keinen bösen Ole.
00:12:16
Daniel Langemann
Hm?
00:12:16
Daniel Langemann
Ah, du hast einen Namen, Name-Dropping.
00:12:17
Kai Ole Hartwig
Ja, das ist eine gute Entscheidung grundsätzlich.
00:12:17
Daniel Langemann
Herrlich.
00:12:22
Kai Ole Hartwig
Aber genau, also mit aggregieren meine ich, die Logs, also die Daten aus dem Logging, werden von den unterschiedlichen Services abgeholt und werden erst einmal jetzt zum Beispiel in so ein Elastic reingeschrieben und dann zusammengeführt.
00:12:40
Kai Ole Hartwig
Ja, Name-Dropping.
00:12:41
Kai Ole Hartwig
So, perfekt.
00:12:41
Kai Ole Hartwig
Elastic ist, glaube ich, Open-Source-Produkt.
00:12:44
Kai Ole Hartwig
Also Open-Source-Produkte,
00:12:45
Daniel Langemann
Mhm.
00:12:47
Kai Ole Hartwig
supporte ich gerne viel und ich habe ja auch Open-Source-Pakete selber.
00:12:53
Kai Ole Hartwig
Wer sich ein bisschen Mühe macht, findet alle, sage ich jetzt mal, wo ich mitgewirkt habe.
00:13:00
Kai Ole Hartwig
Viel Spaß dabei.
00:13:06
Kai Ole Hartwig
Dann sind die Daten da drin und dann kann ich halt darüber suchen und
00:13:11
Kai Ole Hartwig
kann mir auch, wenn ich keine Request-ID habe, ja an einem von Zeitstempeln was zusammenreimen, so ein bisschen.
00:13:18
Kai Ole Hartwig
Wenn ich eine Request-ID habe, dann bin ich natürlich in der Premium-Kategorie für Debugging drin.
00:13:18
Daniel Langemann
Ja.
00:13:23
Kai Ole Hartwig
Dann kann ich so einen Request durch alle Systeme nachverfolgen nachverfolgen und kann dann viel leichter verstehen, was ist denn passiert.
00:13:32
Kai Ole Hartwig
Das ist für mich aber so eine Sache, wo ich sage, okay, wenn man jetzt sich diesen Observer
00:13:40
Kai Ole Hartwig
diesen Beobachtungs-Stack aufbaut?
00:13:42
Kai Ole Hartwig
Ich hab's heute nicht mit Englisch.
00:13:45
Kai Ole Hartwig
Sorry, not sorry.
00:13:46
Kai Ole Hartwig
Irgendwo ist mein Sprachzentrum noch nicht gebootet heute.
00:13:51
Kai Ole Hartwig
Das mag daran liegen, dass unsere Kaffeemaschine immer noch nicht funktional ist, da ich der Einzige bin, der in diesem Haushalt Kaffee trinkt.
00:14:00
Kai Ole Hartwig
Hat das für die anderen Menschen in diesem Haushalt keine so höhere Priorität wie für mich.
00:14:00
Daniel Langemann
Also abonniert unseren Kanal, damit Ole endlich sich eine Kaffeemaschine holen kann.
00:14:01
Daniel Langemann
Eine neue.
00:14:10
Kai Ole Hartwig
Ja, und sponsert den Kanal hier.
00:14:13
Kai Ole Hartwig
Also eigentlich brauche ich nur Spezialwerkzeug, um mal reinzuschauen, ob es nur ein Dichtungsring ist, der kaputt gegangen ist.
00:14:19
Kai Ole Hartwig
Ich sage jetzt mal, aus der Auffangschale den Kaffee immer rauszufischen, ist jetzt nicht so geil, dass ich da Bock drauf habe.
00:14:27
Kai Ole Hartwig
Deswegen lieber keinen Kaffee.
00:14:29
Kai Ole Hartwig
Anyway, das ist ein völlig anderes Problem.
00:14:31
Kai Ole Hartwig
Aber wir müssen das abonnieren und liken und teilen und sponsoren.
00:14:40
Kai Ole Hartwig
Wo war ich jetzt?
00:14:40
Kai Ole Hartwig
Jetzt denkt mein Kopf die ganze Zeit Kaffee.
00:14:46
Daniel Langemann
Bitte sehr, du warst beim Aggregierenden und der Observer-Architektur.
00:14:52
Daniel Langemann
Das du.
00:14:53
Kai Ole Hartwig
Perfekt.
00:14:54
Kai Ole Hartwig
Ich habe doch gesagt, du machst die Fremdworte.
00:14:58
Kai Ole Hartwig
Genau, also wir haben eine Architektur, die holt halt den ganzen Shit ab, packt das zusammen und wir können dann durchsuchen und in der Premium-Variante haben wir bitte eine Request-ID und dann haben Entwickler und Ops und meinetwegen auch POs Zugriff auf den ganzen Shit und können reinschauen und schauen.
00:15:19
Kai Ole Hartwig
Und dann, damit wir alle noch ein bisschen schöner wohnen,
00:15:24
Kai Ole Hartwig
machen wir uns dann schön mit grafana noch schönes dashboard wo wir dann halt sowas treten wie 500 meinetwegen auch
00:15:37
Kai Ole Hartwig
jeden anderen Chip, der uns so einfällt, Reaktionszeiten der einzelnen Services, CPU-Auslastung, RAM-Auslastung, IOTimes.
00:15:46
Kai Ole Hartwig
IOTimes finde ich auch gerade, wenn man geteilte Volumes hat, enorm wichtig, weil manchmal ist ein seltsamer Fehler einfach eine IOTime, die schlecht ist.
00:16:02
Daniel Langemann
Aber genau, solche Sachen siehst du halt, also, und das ist dann wieder der Unterschied zwischen Logging und Monitoring, ne, also Logging wäre einfach, dass die Dienste ihre Daten irgendwo ablegen und dass du in irgendeiner Textdatei, sagen wir mal, greppen müsstest, um da Sachen zu sehen und Monitoring ist halt dieses schöne Dashboard, was die Sachen zusammenführt, wo du dann, ne, wieder bei, sind wir wieder bei schöner Wohnen, was ich zum Beispiel mag, ist, wenn dann noch markiert wird, wann Deployments stattgefunden haben, weil du
00:16:30
Daniel Langemann
dann ganz schnell sehen kannst und sagen wir mal, wenn du ein Deployment machst und bei mir war es jetzt so, hast du einen Online-Shop, wo richtig viel los ist, Deployment und du kannst einfach die 10 Minuten, 15 Minuten danach drauf schauen, ob alles ruhig bleibt oder ob du auf den Button drückst, ich rolle mal schnell wieder zurück, weil was kaputt gegangen ist, solche Sachen.

Wichtigkeit von Monitoring im großen Maßstab

00:16:51
Kai Ole Hartwig
ja, ich finde, ins Logging, damit es dann im Monitoring auftaucht, gehört auch immer schon eine Versionsnummer vom jeweiligen Service.
00:17:00
Daniel Langemann
Ja, dass du............
00:17:05
Kai Ole Hartwig
Weil dann kann ich halt zum Beispiel, wenn ich so Dinge fahre wie Blue-Green-Deployments oder Continuous-Update etc., dann kann ich halt sehen, ah, jetzt ist
00:17:19
Kai Ole Hartwig
aber das war während dem Deployment, während diese Pots umgeschaltet haben und da war halt ein Seiteneffekt drin.
00:17:25
Kai Ole Hartwig
Ja, weiß ich nicht, Datenbank-Schema hat sich geändert.
00:17:30
Kai Ole Hartwig
So, und dann ist halt beim alten Service dann doch ein Seiteneffekt aufgetreten.
00:17:34
Kai Ole Hartwig
So, dann weiß ich aber auch, hey, okay, da muss ich mich jetzt gar nicht mehr so richtig drum kümmern.
00:17:34
Daniel Langemann
Ja, ja.
00:17:41
Kai Ole Hartwig
Ja, ich weiß, okay, da ist was aufgetreten, das hat sich dann kümmern.
00:17:48
Kai Ole Hartwig
dann ist es okay.
00:17:50
Kai Ole Hartwig
Und dann sind wir auch schon wieder ganz heiß nah dran am Alerting.
00:17:53
Kai Ole Hartwig
Hm.
00:17:53
Daniel Langemann
Ja, also es geht Hand in Hand, weil wenn du solche Dashboards hast, also um das Spiel weiterzuspielen, bei dem Online-Shop war es zum Beispiel auch so, dass wir ein Alerting hatten, dass wenn 30 Minuten, also während den Geschäftszeiten, sage ich mal, tagsüber, konntest du davon ausgehen, dass es keine 5 Minuten ohne Kauf gab, da haben wir ein Alerting gehabt, dass ein Alarm losgegangen ist, wenn 30 Minuten kein Kauf passiert ist, weil wir mal den Fall hatten,
00:18:21
Daniel Langemann
Deployment, irgendwas ist kaputt gegangen, der Checkout-Prozess war kaputt.
00:18:25
Daniel Langemann
Das ist natürlich als Online-Shop der Super-GAU.
00:18:32
Daniel Langemann
Es war jetzt halb so schlimm, wie es sich anhört für uns, aber genau das ist wieder der Punkt, warum Monitoring so super wichtig wird, weil
00:18:40
Daniel Langemann
Die Architekturen werden immer abstrakter.
00:18:42
Daniel Langemann
Also es geht immer mehr in Message-Queues, immer asynchroner und gerade da siehst du viel weniger als Entwickler, weil das Event wird getriggert und das kann jetzt ausgeführt werden, in zwei Minuten, in zehn oder in 15, je nachdem wie voll die Queue ist.
00:18:50
Kai Ole Hartwig
Ja.
00:18:59
Daniel Langemann
Vielleicht blockiert da gerade irgendwas und da dreht sich was im Kreis.
00:19:03
Daniel Langemann
Das kriegst du so ja gar nicht mehr mit als Entwickler.
00:19:05
Daniel Langemann
Und da ist auch kein Kunde, der dann sagt, guck mal, ich habe beim Support angerufen oder schreib eine böse E-Mail oder eine böse Bewertung.
00:19:11
Daniel Langemann
Das ist ja auch so indirektes Monitoring oft.
00:19:16
Daniel Langemann
Aber bei Message Cues kriegst du das ja gar nicht mit.
00:19:19
Daniel Langemann
Und deswegen finde ich das super wichtig.
00:19:22
Daniel Langemann
Also ist das Monitoring immer wichtiger, weil auch immer kleinere Applikationen immer mehr asynchron machen.
00:19:28
Daniel Langemann
Und dann mit dem Alerting, also wenn du schon das Monitoring hast, dann bist du schon kurz davor zu sagen, komm, ich schicke da mal eine E-Mail raus, wenn irgendein Zustand X oder Y eingetreten ist.
00:19:37
Kai Ole Hartwig
Das Modul jetzt zusätzlich zu konfigurieren, ist, glaube ich, im Gegensatz zu erst mal die ganze Aggregation zu bauen, echt nicht mehr relevant jetzt so in Zeit gemessen.
00:19:43
Daniel Langemann
Ja, ja.
00:19:48
Kai Ole Hartwig
Teil.
00:19:52
Kai Ole Hartwig
Was ich auch sagen muss, ist, je mehr unterschiedliche Teams dran sind und je mehr Services du hast, je wichtiger ist ein gutes Monitoring.
00:19:59
Daniel Langemann
Hmm.
00:20:03
Kai Ole Hartwig
Ich saß mal im Projekt
00:20:04
Kai Ole Hartwig
dann hat man ein Produkt mitgebaut, so das trifft es eher, wo wir halt wirklich auch an die Auslastungsgänzen von Elastic gekommen sind.
00:20:14
Kai Ole Hartwig
Ja, weil einfach so viele Services liefen mit so vielen Daten und wo halt einfach auch tageweise
00:20:36
Kai Ole Hartwig
gekostet hat wo man halt dann auch sagen muss man weiß ja auch nicht was tun denn jetzt gerade die anderen und da ist total hilfreich so ein system zu haben wo man dann halt sieht okay wir haben auf einmal ein problem und acht guck an bei denen hat sich die versionsnummer geändert haben wir jetzt vielleicht irgendeinen seiten effekt davon
00:21:05
Daniel Langemann
Oh ja.
00:21:05
Daniel Langemann
Mhm.
00:21:05
Daniel Langemann
Mhm.
00:21:05
Daniel Langemann
Mhm.
00:21:06
Kai Ole Hartwig
oder wenn du dann schon siehst, im anderen Team geht schon das Alerting los und du weißt, oh, wenn deren Service jetzt fehlt, dann geht in fünf Minuten unser Alerting los, weil wir nachher abhängig davon sind und wir auch eine Metrik haben mit, unsere Message-Queue läuft voll, weil da wird der Shit nicht abgearbeitet.
00:21:28
Kai Ole Hartwig
So.
00:21:28
Kai Ole Hartwig
Ähm.
00:21:32
Kai Ole Hartwig
Und gerade wenn man halt natürlich jetzt, wie bei mir in dem Fall, das Team ist, was irgendwie die Startseite mit allem verantwortet und alle Inhaltsseiten verantwortet, du bist halt, wenn bei dir was schiefläuft, sind alle anderen geliefert, mehr oder weniger.
00:21:50
Kai Ole Hartwig
Außer jemand kommt über die Suche auf eine Seite, die nicht betroffen ist, auf so ein Produkt direkt drauf.

Vorteile von Message Queues

00:21:55
Kai Ole Hartwig
Okay, dann nicht.
00:21:57
Kai Ole Hartwig
Aber wenn dein Ding steht und kaputt ist,
00:22:02
Kai Ole Hartwig
dann sorgst du dafür, dass kein Umsatz stattfindet.
00:22:05
Kai Ole Hartwig
Oder signifikant weniger Umsatz stattfindet.
00:22:07
Daniel Langemann
Ja, oft ist es, es findet gar nichts mehr statt.
00:22:10
Daniel Langemann
Also die Signifikant weniger ist ja selten erlebt.
00:22:13
Kai Ole Hartwig
Naja, das kommt ja natürlich dann darauf an, wie dein Traffic zu dem Zeitpunkt ist und wie...
00:22:19
Kai Ole Hartwig
Läuft gerade noch Radiowerbung, Fernsehwerbung, ist gerade 12 Uhr mittags oder 18 Uhr abends.
00:22:25
Kai Ole Hartwig
Also ist es vielleicht der Zeitpunkt, wo du selber sagst, so, ich gehe jetzt mal essen, jetzt passiert ja nichts mehr oder jetzt sollte nichts laufen.
00:22:30
Daniel Langemann
Aber aus Erfahrung muss ich sagen, da bin ich wieder so der Freund von Message Cues.
00:22:32
Kai Ole Hartwig
Ja.
00:22:36
Daniel Langemann
Ich mag das, weil, also bei dem einen Beispiel war es so, da sind alle Messages in die Dead Letter Queue gelaufen.
00:22:43
Daniel Langemann
Also es war nicht super, es war nicht geil, aber wir hatten einfach Zeit als Entwickler.
00:22:48
Daniel Langemann
Also diese 30 Minuten haben gereicht, dass wir ins Monitoring reingeguckt.
00:22:52
Daniel Langemann
Also wir haben leider nicht durch Alerting Infos gekriegt, aber haben ins Blogging reingeguckt, haben einen Fix gefunden, den deployed.
00:22:59
Daniel Langemann
Und dann einfach nur auf Redrive gedrückt, alle Messages wieder zurückgekippt und es ist keine Bestellung verloren gegangen.
00:23:03
Kai Ole Hartwig
Ja.
00:23:03
Kai Ole Hartwig
Ja.
00:23:06
Daniel Langemann
Also ich habe aus anderen Projekten zum Beispiel immer noch so ein bisschen PTBS, wo man sagt, man geht durch das Lok.
00:23:12
Daniel Langemann
Man greppt dann alle Kundennummern, alle Bestellungen und versucht dann möglichst alle Bestellungen irgendwie wieder herzustellen, wo du dann tagelang arbeitest, weil du möchtest natürlich auch den Umsatz nicht liegen lassen und du möchtest auch den Kunden glücklich machen, weil der wollte das ja haben.
00:23:26
Daniel Langemann
Da hast du so viel Nacharbeit, deswegen, also bei MessageQ, das ist schon... Ja, ja.
00:23:30
Kai Ole Hartwig
eben, es ist sehr geschickt, Dinge an zuverlässige Services zu schicken, das einfach nur mal aufschreiben, quasi notieren und weitergeben.
00:23:40
Kai Ole Hartwig
So, das nimmt auch viel Stress raus, gerade wenn dann auch sowas mal wieder ist, wie das SAP wird deployed.
00:23:52
Kai Ole Hartwig
Und das geht immer schief.
00:23:55
Kai Ole Hartwig
Jetzt bin ich sehr böse, aber bei uns ging es regelmäßig schief, wenn da deployed wurde, dass dann irgendwie Dinge nicht weitergegeben wurden nach der Bestellung, dass sie tatsächlich dann abgearbeitet wurden im Lager.
00:24:02
Daniel Langemann
Nimm mal.
00:24:02
Daniel Langemann
Nimm mal.
00:24:09
Kai Ole Hartwig
So, und dann bist du natürlich in der schönen Situation, dass du sagen kannst, okay, cool, ihr habt jetzt 48 Stunden keine Bestellung angenommen oder verarbeitet, weitergegeben.
00:24:22
Kai Ole Hartwig
Hier kommt 2 Millionen Umsatz für euch.
00:24:27
Kai Ole Hartwig
Viel Spaß!
00:24:29
Daniel Langemann
Das haben wir auch schon geschafft, dass wir dann das SAP, also dass das einfach mit der Flut der Messages nicht mehr klarkommt.
00:24:36
Daniel Langemann
Also das ist dann auch wieder, dieses Redrive ist dann auch ein Problem, weil du dann DDoS auf die nächsten angelegenen Systeme machst.
00:24:42
Kai Ole Hartwig
Ja, ich stemme und die das auf, die Mitarbeiter, ne?
00:24:46
Kai Ole Hartwig
Die im Lager ja picken müssen.
00:24:46
Daniel Langemann
Ja, das auch.
00:24:47
Daniel Langemann
Mhm.
00:24:48
Kai Ole Hartwig
Und das kommissionieren und rausschicken müssen.
00:24:51
Kai Ole Hartwig
Ich stelle mir dann auch vor, was so Mitarbeiter denken, wenn dann zwei Tage lang quasi nichts reingekommen ist und auf einmal kommt, pfumm!
00:25:01
Daniel Langemann
kommen die gar nicht mehr hinterher mit dem Papier in den Drucker nachlegen für die ganzen Titelisten.
00:25:06
Kai Ole Hartwig
Ja.
00:25:06
Kai Ole Hartwig
So, also.
00:25:08
Kai Ole Hartwig
Gut, da war ich zum Glück noch nicht in so einem Lager nach so einem Ding, aber eigentlich würde es mich mal wirklich interessieren, wie das dann abläuft.

Monitoring und Teamverantwortung

00:25:16
Kai Ole Hartwig
Also wie
00:25:19
Kai Ole Hartwig
wie da dann die Prozesse laufen.
00:25:21
Kai Ole Hartwig
Aber das ist reine Neugier.
00:25:23
Kai Ole Hartwig
Vielleicht auch in einem Projekt, wo ich nicht beteiligt bin, damit man immer sagen kann, hey Freunde, ich bin hier just for, mich interessiert das hier einfach nur, wie das bei euch so läuft.
00:25:29
Daniel Langemann
Ich bin der Grund dafür, dass du so scheiße Arbeitsbedingungen hast.
00:25:31
Daniel Langemann
Hm.
00:25:31
Daniel Langemann
Hm.
00:25:42
Kai Ole Hartwig
Ich bin jetzt kein SAP-Entwickler, der das kaputt gemacht hat.
00:25:45
Kai Ole Hartwig
Jetzt bin ich ja böse SAP-Bashing, so schlimm ist es ja gar nicht, hoffe ich.
00:25:56
Kai Ole Hartwig
Aber natürlich, wenn man Monitoring, Alerting und so auf diese ganzen Schlüsselfunktionen schon mal hat, dann kannst du natürlich viel ruhiger schlafen als Entwickler,
00:26:11
Kai Ole Hartwig
glaube, auf allen anderen Ebenen auch, weil du halt weißt, hey, das ist cool.
00:26:17
Kai Ole Hartwig
Das ist genauso.
00:26:19
Kai Ole Hartwig
Dann hing auch ein Dashboard, ein Grafana-Dashboard in der Teeküche, wo man die aktuellen Umsätze gesehen hat.
00:26:28
Daniel Langemann
Oh, das ist cool, ja.
00:26:30
Kai Ole Hartwig
Ja, wo man dann auch, also auch mit Tagesvergleich, Wochenvergleich und so, wo man dann halt gesehen hat, wo steht man denn.
00:26:37
Daniel Langemann
Mhm.
00:26:38
Kai Ole Hartwig
rot aufploppte, wir haben ein Problem.
00:26:42
Daniel Langemann
Ja.
00:26:42
Kai Ole Hartwig
Ja, es war halt quasi für jeden, der in diesem Bereich tätig war, war halt sichtbar, wie läuft es denn gerade?
00:26:52
Daniel Langemann
Das finde ich gut.
00:26:53
Daniel Langemann
Also weniger als Fingerpointing, sondern du hast ja so immer wenig Feedback, sagen wir mal, von dem, was man macht.
00:26:59
Daniel Langemann
Also es rappelt, klappert ja nichts oder es macht keine Geräusche, es qualmt nicht.
00:27:04
Daniel Langemann
So als Entwickler siehst du ja, machst du was, kommittest, gehst an die Kaffermaschine, spürst ja nichts mehr.
00:27:06
Kai Ole Hartwig
Ja.
00:27:10
Daniel Langemann
Und so hast du so ein bisschen visuelles Feedback.
00:27:12
Daniel Langemann
Das finde ich eigentlich ganz gut.
00:27:13
Daniel Langemann
Also wenn es nicht ein Fingerpointing nachher ausartet, dass so dein Name dann aufploppt mit, guck mal, Daniel hat als letzter committed, mit Bild am besten...
00:27:20
Kai Ole Hartwig
Nee, nee, das ja nicht.
00:27:21
Kai Ole Hartwig
Also wirklich als cross-funktionales Ding, wo alle, die irgendwie daran beteiligt sind, als es noch erlaubt war, heute geht das ja alles nicht mehr mit extern und hast du gesehen, nicht gesehen, aber wo wirklich alle Beteiligten im Prinzip auf ein, zwei Etagen, eineinhalb Etagen verteilt waren und halt da den Blick drauf hatten, wie geht es denn dem, was wir hier alle zusammen gerade schaffen.
00:27:25
Daniel Langemann
Mhm.
00:27:25
Daniel Langemann
Mhm.
00:28:04
Kai Ole Hartwig
sichtbar.
00:28:07
Kai Ole Hartwig
Aber es war eines der besten Produkte, an denen ich beteiligt war.
00:28:14
Daniel Langemann
Du nicht mehr beteiligt warst.
00:28:14
Kai Ole Hartwig
Bis zu dem Punkt, wo
00:28:14
Daniel Langemann
Alles super.
00:28:15
Daniel Langemann
Aber...
00:28:18
Kai Ole Hartwig
Nee, nee, wo dann nachher halt ja die ganzen Externen raus mussten, also nicht mehr da sitzen durften, nicht mehr so eingebunden sein durften, ja, diese ganze Scheinselbstständigkeitsdiskussion und so.
00:28:37
Kai Ole Hartwig
Und Fremddienstleisterrichtlinien, die gekommen sind, die dann natürlich auch dazu beigetragen haben, dass solche Arbeiten in der Form nicht mehr möglich sind.
00:28:45
Kai Ole Hartwig
Und darunter hat dann tatsächlich
00:28:49
Kai Ole Hartwig
messbar die qualität des produkts gelitten weil dann auch keine dicken
00:28:52
Daniel Langemann
Also ich lache, weil es für mich offensichtlich ist, aber anscheinend für andere nicht.
00:28:56
Daniel Langemann
Also ja, schade.
00:28:59
Daniel Langemann
Es ist schade, aber gerade dieses Thema Scheinselbstständigkeit, es macht vieles kaputt.
00:29:03
Daniel Langemann
Also ich finde das Gesetz nicht falsch.
00:29:05
Daniel Langemann
Also es ist dafür da, die Schwächsten zu schützen, aber nicht in der IT.
00:29:11
Daniel Langemann
Also es
00:29:16
Kai Ole Hartwig
Ja, so.
00:29:18
Kai Ole Hartwig
Aber das betraf nicht nur Freelancer, sondern das betraf alle Fremddienstleister.
00:29:23
Kai Ole Hartwig
Alle mussten da raus.
00:29:25
Kai Ole Hartwig
Und man hat dann an den Zahlen gesehen und man hat auch am Kommunikationsverhalten gesehen.
00:29:30
Kai Ole Hartwig
Wenn dann intern und externe nicht mehr direkt miteinander kommunizieren dürfen, dann gab es halt auch so Sachen wie, dass dieses Thema einfach ausgefallen sind.

Risikomanagement und Bereitstellung

00:29:50
Kai Ole Hartwig
durften.
00:29:53
Kai Ole Hartwig
Und dann halt einfach längere Ausfallzeiten da waren.
00:29:58
Daniel Langemann
wenn man sich das leisten kann.
00:29:59
Daniel Langemann
Also, es ist ja schön, wenn man sowas über Monitoring dann, oder, ne, wenn man das dann nachher sehen kann.
00:30:04
Daniel Langemann
Und das ist ja auch so ein Thema, muss ich zugeben, das habe ich bis jetzt noch seltener erlebt, dieses, was du anfangs meintest, ne, dieses Decision-Making auch noch.
00:30:13
Daniel Langemann
Also, dass man zum Beispiel auch mit diesen Daten arbeitet.
00:30:16
Daniel Langemann
Das ist ja nicht nur für Entwickler gut, sondern, dass man genau, wenn man solche Sachen blockt, also zum Beispiel Tagesumsätze, ne,
00:30:24
Daniel Langemann
pro Stunde, wie auch immer, wo man sagen kann, guck mal, an den Stunden, an den Tagen ist viel los im Shop, an den und den Zeiten ist wenig los im Shop.
00:30:31
Daniel Langemann
Wir haben ein risikoreiches Deployment, wo man als Entwickler sagt, da könnte es eine Downtime geben.
00:30:35
Daniel Langemann
Ja, perfekt.
00:30:36
Daniel Langemann
Und wenn ich dann solche Daten habe, kann ich direkt einen Finger drauflegen und sagen, guck mal, das ist eine Uhrzeit, da ist seltenst was los.
00:30:41
Daniel Langemann
Also mache ich es doch da, bevor ich dann zu der Uhrzeit mache, wo alle da sind.
00:30:46
Daniel Langemann
Oder
00:30:46
Kai Ole Hartwig
ja genau sollte aber auch einfach mal performance ja wie schnell läuft denn meine applikation wir haben zum beispiel auch ganz hart
00:30:47
Daniel Langemann
Was zum Beispiel, habe ich auch schon ein paar Mal erlebt, ist auch eine nette Geschichte, das war so ein Feature, was unbedingt gebaut werden musste, wurde auch viel Zeit reingesteckt, so eine Wunschliste.
00:30:57
Daniel Langemann
Da hat man im Nachhinein rausgefunden, ich glaube im ersten Monat haben das keine 4000 Leute genutzt, also hat sich gut gerechnet.
00:31:14
Kai Ole Hartwig
entsprechende Performance-Metriken nachher erfasst von den Applikationen selber und dann halt auch Performance-Optimierung gemacht, weil wir dann einfach auch Daten dazu hatten.
00:31:20
Daniel Langemann
Mhm.
00:31:20
Daniel Langemann
Mhm.
00:31:25
Kai Ole Hartwig
Welcher Request verbraucht denn wie viel RAM, wie viel CPU, wo hängt es denn, wo läuft es denn öfter durch, wo müssen wir denn optimieren.
00:31:33
Kai Ole Hartwig
Dann weiß man auch, warum auf einmal Caching ein Bottleneck sein kann.
00:31:37
Kai Ole Hartwig
Was es schneller machen soll, macht es auf einmal langsamer.
00:31:41
Kai Ole Hartwig
Und wenn du solche Sachen natürlich zusätzlich erfasst, ja, das geht ja über das normale Logging irgendwie aus, dann kannst du nämlich wirklich einfach mal Entscheidungen, also als Entwickler, ja, da sind die Umsätze vielleicht, die sind eher PO-relevant, denke ich mir immer so ein bisschen.
00:31:57
Daniel Langemann
Das ist ein super Thema, was du gerade ansprichst, ja.
00:32:01
Kai Ole Hartwig
Ja, aber dann hat man halt dieses...
00:32:04
Kai Ole Hartwig
auf datenbasiert Entscheidungen treffen, kann man halt auf alle Ebenen ausrollen.
00:32:08
Kai Ole Hartwig
Ja, klar, Umsätze sind super wichtig, gar kein Ding, aber das ist auch vielleicht wichtig, um zu entscheiden, welches Feature bekommt welche Priorität.
00:32:18
Daniel Langemann
Jede Abteilung hat unterschiedliche KPIs.
00:32:18
Kai Ole Hartwig
Aber für ein genau
00:32:20
Daniel Langemann
Also es ist ein ganz großer Reibungspunkt.
00:32:22
Daniel Langemann
Also das Thema, was du gerade ansprichst, triggert mich auch extrem, weil ich als Entwickler möchte, dass die Applikation stabil, kontinuierlich, gleichmäßig läuft.
00:32:32
Daniel Langemann
Andere Abteilungen, andere Personen haben ganz andere KPIs.
00:32:36
Daniel Langemann
Also es gibt zum Beispiel Umsatz als KPI.
00:32:38
Daniel Langemann
Es gibt, also berechtigterweise, es ist nicht so eins richtig, eins falsch, sondern jede Abteilung hat ihre KPIs.
00:32:45
Daniel Langemann
Ops hat zum Beispiel Inzidenz einfach, wo die sagen, guck mal, es gibt keine Inzidenz, keine Downtimes, fertig, das ist unser Ding.
00:32:50
Daniel Langemann
Und dann müssen wir vielleicht noch Betriebskosten irgendwie reduzieren.
00:32:50
Kai Ole Hartwig
Ja.
00:32:50
Kai Ole Hartwig
Mhm.
00:32:54
Daniel Langemann
Entwickler haben wieder andere KPIs und das führt dazu, dass du richtige Reibungen hast.
00:32:59
Daniel Langemann
Zum Beispiel war das in einem Projekt, war zwar eine KPI, Reaktionszeiten der Seite, also im Median, ja, aber es gab eine alte Schnittstelle, die gescrapt wurde und die hat XML in gefühlt Gigabyte größer ausgekotzt.
00:33:14
Daniel Langemann
Natürlich hat die über drei oder vier oder fünf Sekunden Ladezeiten gehabt und hat natürlich den Median komplett versaut für den Checkout.
00:33:22
Kai Ole Hartwig
Ja.
00:33:24
Daniel Langemann
Und da war ich dann immer am argumentieren, lass doch entweder das Ding ausschließen oder wir segmentieren das auf gewisse Bereiche, zum Beispiel, dass der Checkout, also wir suchen uns den Checkout raus, suchen welche Requests da passieren und fassen diese zusammen und bauen daraus ein Median, wo ich sage, das ist gut.
00:33:41
Daniel Langemann
Und da hast du viele Probleme auch, also können viele Reibungen entstehen.
00:33:44
Daniel Langemann
Und trotzdem finde ich es super wichtig, als Entwickler, wie du sagst, sagen zu können, und das hatten wir auch, wir haben uns hingesetzt und gesagt, guck mal, es ist, also auch wenn wir darüber geschimpft haben, es ist Mist, wir wollen es besser machen.
00:33:55
Daniel Langemann
Und haben uns dann Sachen einfallen lassen, haben die eingebaut und du konntest auch mal sehen, Deployment, also wirklich so ein Haken und über mehrere Tage, dass das runtergegangen ist oder Arbeitsspeicherverbrauch.
00:34:05
Daniel Langemann
Wir sind immer wieder an die Grenzen gestoßen, als wir out of memory waren.
00:34:10
Daniel Langemann
Dann machst du eine größere Kiste hin.
00:34:12
Kai Ole Hartwig
Ja.
00:34:12
Kai Ole Hartwig
Ja, aber...
00:34:13
Daniel Langemann
Die ist natürlich teurer.
00:34:14
Daniel Langemann
Ende vom Lied war, wir haben uns irgendwo hingesetzt und haben gesagt, guck mal, wenn wir das, das, das und so und so machen und nicht vielleicht komplette Objekte loggen, die serialisiert werden müssen,
00:34:23
Daniel Langemann
Arbeitsspeicher halbiert, was dann auch wieder Kosten reduziert, was andere KPIs, Gesundheit.
00:34:30
Daniel Langemann
Aber ich finde das super interessant, es macht Spaß und es ist super konfliktbehaftet, weil jede Abteilung so sein eigenes Ding hat oder eigene Richtung gehen

Sicherheitsüberwachung und Automatisierung

00:34:40
Daniel Langemann
will.
00:34:40
Daniel Langemann
Mhm.
00:34:41
Kai Ole Hartwig
dann haben wir zwei Sichten noch völlig vorgelassen.
00:34:46
Kai Ole Hartwig
Also die DevSecOps-Sicht oder DevOps-Sicht.
00:34:49
Kai Ole Hartwig
Als erstes Pipeline-Logging und Monitoring.
00:34:52
Kai Ole Hartwig
Ja, wie ist denn da die Performance?
00:34:54
Daniel Langemann
Oh ja.
00:34:55
Daniel Langemann
Okay, muss ich zugeben, habe ich noch nie gemacht.
00:34:55
Kai Ole Hartwig
Ja.
00:34:56
Daniel Langemann
Es lag an mir, nicht an GitLab.
00:34:57
Daniel Langemann
Genau.
00:34:57
Kai Ole Hartwig
Und ja, GitLab hat einen Endpoint dafür.
00:35:02
Kai Ole Hartwig
Also es gibt Endpunkte dafür, du kannst es machen.
00:35:07
Kai Ole Hartwig
Wenn du jetzt GitLab CI nutzt,
00:35:10
Kai Ole Hartwig
Das war ja nur die Seiteninformation, dass es an dir liegt.
00:35:18
Kai Ole Hartwig
Ich muss sagen, das handeln wir auch relativ tiefmütterlich.
00:35:23
Kai Ole Hartwig
Das ist so dieses, okay, es kommt schnell genug an oder nicht.
00:35:26
Kai Ole Hartwig
Aber Runner-Performance ist eigentlich auch eine wichtige Metrik, zumindest wenn du viel deployst und viel laufen hast, auch viel automatisiert laufen hast mit Renovate und anderen Sachen.
00:35:30
Daniel Langemann
Laufzeit, ja.
00:35:30
Daniel Langemann
Hm.
00:35:30
Daniel Langemann
Hm.
00:35:38
Kai Ole Hartwig
Und natürlich auch Security kannst du monitoren.
00:35:42
Kai Ole Hartwig
Wir haben nämlich den ganzen CVEs.
00:35:46
Kai Ole Hartwig
Was ist denn so in der S-Bomb drin?
00:35:49
Kai Ole Hartwig
OVAPS hat auch ein neues Tool im Übrigen jetzt rausgebracht als Beta-System, aber natürlich kannst du auch deine S-Bomb-Metrik, also die S-Bomb als Metrik benutzen und schauen, welche Versionen sind da drin und regelmäßig prüfen, gibt es denn jetzt da neue Sicherheitslücken, also im Prinzip...
00:36:07
Kai Ole Hartwig
Und ich schaue, wie viele bekannte Sicherheitslücken haben wir aktuell im System?
00:36:10
Kai Ole Hartwig
Und dann siehst du ja, okay, das geht hoch, dann läuft dein hoffentlich Renderweight los und sagt, ich habe hier Pages, ich spiele das ein.
00:36:10
Daniel Langemann
Das ist auch nicht gut.
00:36:18
Kai Ole Hartwig
Die Pipelines sind grün, die laufen schnell und dann siehst du, okay, das wird ausgerollt, verteilt und dann geht halt dein Metric für bekannte Sicherheitslücken wieder runter.
00:36:28
Kai Ole Hartwig
Nur als ein Easy-Going-Beispiel, ja, da kannst du noch viel, viel mehr natürlich loggen, nämlich wie schnell reagierst du denn tatsächlich darauf, also wann wurde es veröffentlicht, wann wurde erkannt, dass da ein Update ist und wann ist es denn jetzt tatsächlich angekommen.
00:36:43
Daniel Langemann
Und dann ist es auf Pod.
00:36:46
Daniel Langemann
Ich mag solche Metriken, weil die belohnen Entwickler.
00:36:48
Daniel Langemann
Also die belohnen das Team, weil du dann auch sagen kannst, guck mal, als Team haben wir geschafft, dass diese Metrik runtergegangen ist.
00:36:55
Daniel Langemann
Also so war es halt in den letzten Teams immer.
00:36:57
Daniel Langemann
Und Ladezeiten wurden besser.
00:37:00
Daniel Langemann
Und das ist nicht so eine Metrik, die auf ein Individuum gemünzt ist, sondern wirklich als Team.
00:37:05
Daniel Langemann
Und das hat sich auch gut angefühlt.
00:37:06
Daniel Langemann
Man war stolz darauf, dass man sagen konnte dann in einem Meeting, guck mal, wir haben das geschafft, das zu reduzieren.
00:37:11
Kai Ole Hartwig
Genau, und du kannst halt auch damit zum Beispiel sehen, okay, dieses Investment in Automatisierung hat sich gelohnt, weil jetzt sind wir x Prozent schneller damit.
00:37:21
Daniel Langemann
Ja.
00:37:23
Kai Ole Hartwig
Also unser Deployment, das Schließen von Sicherheitslücken und so weiter und so fort.
00:37:28
Kai Ole Hartwig
Oder auch, dass wir Infrastructure as Code betreiben und entsprechende Systeme,
00:37:39
Kai Ole Hartwig
oder, oder, oder, es gibt ja tausend oder eine Variante, Betreiben und Nutzen hat dazu beigetragen, dass unsere Systeme stabiler laufen, dass wir schneller ausrollen, dass wir nach dem, was wir wissen, sicherer unterwegs sind.
00:37:55
Daniel Langemann
Mhm.
00:37:55
Daniel Langemann
Mhm.
00:37:56
Kai Ole Hartwig
So, jetzt Sicherheit ist immer eine schwierige
00:38:08
Kai Ole Hartwig
denn davon ganz Phänometriken, weil die verwischen nichts und die verwaschen nichts.
00:38:15
Kai Ole Hartwig
Also die sind relativ klar.
00:38:19
Kai Ole Hartwig
Und da finde ich andere KPIs in dem Sicherheitsbereich immer schwieriger.
00:38:25
Kai Ole Hartwig
Aber es gibt ja, wenn man jetzt mal auf diese ISO-Geschichten schaut, tausend und zwei Dinge, die eigentlich damit reingehören, die jetzt aber vielleicht für uns gar nicht so spannend sind.
00:38:36
Daniel Langemann
Ja, also genau, man muss so seine Metrik ein bisschen finden.
00:38:40
Daniel Langemann
Und dann auch gucken, was man da rein interpretiert.
00:38:42
Daniel Langemann
Nur weil da eine Zahl dran steht, heißt das ja nicht, dass sie eine sinnvolle Zahl ist oder eine gute Bedeutung hat.
00:38:48
Kai Ole Hartwig
Ja.
00:38:48
Daniel Langemann
Das ist schwer.
00:38:50
Kai Ole Hartwig
Ich finde auch zum Beispiel ein Alerting auf, es gibt neue Critical CVEs sinnvoll.
00:38:58
Kai Ole Hartwig
Oder auch High finde ich auch noch wichtig, weil manchmal haben wir jetzt ja auch die Situation, die Sicherheitslücke wird bekannt, es gibt aber noch keinen Patch.
00:39:07
Kai Ole Hartwig
Da muss ja jemand quasi zum Beispiel für NixOS die Mitigation reinmachen und deployen lassen.
00:39:14
Daniel Langemann
Mhm.
00:39:16
Kai Ole Hartwig
Oder
00:39:22
Kai Ole Hartwig
Und dann bekommt man es aktiv mit.
00:39:26
Kai Ole Hartwig
Ja, und dann wird man auch nicht, wenn man nämlich nur über die eigenen Pakete ja quasi drüber geht, die man ja durch die S-Bomb erfasst hat, dann hast du nicht diesen Lärm aus Sicherheitslücken um dich rum, die dich eigentlich gar nicht betreffen.
00:39:42
Kai Ole Hartwig
Ja, also, weil es gibt ja...
00:39:43
Daniel Langemann
Ja, ja, genau, keine falschen Fehlermeldungen, die dich dann, also, ne, dass du dann taub wirst da drauf, ja.
00:39:51
Kai Ole Hartwig
ständig, wer weiß wie viele Sicherheitsmeldungen, Sicherheitslücken und Meldungen dazu und wenn du natürlich jetzt dann sagst, okay, ich schaue nur auf das, was bei uns auch tatsächlich läuft, dann weißt du zum einen, was läuft bei dir tatsächlich und zum anderen musst du dann halt auch nur darauf achten und das, was ringsherum passiert, kannst du dann halt außen vor lassen.
00:40:18
Daniel Langemann
Hm.
00:40:18
Daniel Langemann
Hm.
00:40:18
Daniel Langemann
Hier ein Legacy-System ist das ruhig.
00:40:19
Kai Ole Hartwig
Das ist nämlich, finde ich, beim KPIs und beim Alerting nämlich auch wichtig, dass man da die Dinge nimmt und findet und einstellt, die tatsächlich relevant sind.
00:40:30
Kai Ole Hartwig
Wenn du sagst, okay, 10, 500er in der Minute sind völlig okay für uns, weil wir wissen, dass der Service eigentlich nicht stabil ist, aber wir wollen daran arbeiten, aber 10 Stück sind okay, da ist nichts kaputt, das ist quasi unser normales Grundrauschen.

Kubernetes und service-level Monitoring

00:40:49
Daniel Langemann
Das ist die Realität.
00:40:49
Daniel Langemann
Ja.
00:40:49
Kai Ole Hartwig
Das fühlt sich so falsch an, aber das kann ja sein.
00:40:57
Kai Ole Hartwig
Genau, wir wissen ja alle, wie das manchmal so ist.
00:41:00
Kai Ole Hartwig
Und dann hast du aber auf einmal 60, dann macht es ja Sinn, dass du ab einer gewissen Schwelle, die über 10 liegt, trotzdem ein Alerting machst.
00:41:11
Kai Ole Hartwig
Und nicht halt sagst, ja, okay, 500er sind für uns normal.
00:41:14
Kai Ole Hartwig
Sondern dann musst du halt auch sagen, okay, für uns ist ein Grundraufen in der Höhe normal.
00:41:20
Kai Ole Hartwig
ähm, aber wenn es darüber rausgeht, ja, dann, dann brauche ich eine Information.
00:41:20
Daniel Langemann
Eine Veränderung um x Prozent.
00:41:25
Daniel Langemann
Wobei das schwer ist.
00:41:26
Daniel Langemann
Also gerade bei Exceptions und Ausnahmen, wenn das Crown-Jobs sind zum Beispiel, dann ist das ja vorhersehbar, welches Grundrauschen die erzeugen, wenn die alle x Minuten starten.
00:41:37
Daniel Langemann
Bei Nutzern ist das schwerer.
00:41:37
Kai Ole Hartwig
Ja, aber der läuft ja auch auf einem eigenen Pod, da kannst du ja das Erleitung schon wieder entsprechend zuschneiden.
00:41:38
Daniel Langemann
Ja.
00:41:42
Kai Ole Hartwig
Also, ich hoffe, es läuft auf einem scheduled Pod, ähm,
00:41:48
Daniel Langemann
Sie hängt von der Architektur ab, ja.
00:41:51
Daniel Langemann
Aber zum Beispiel, das lockt das trotzdem mit rein in das Dashboard mit allem drum und dran.
00:41:57
Kai Ole Hartwig
Ja, natürlich, aber dann musst du halt entsprechend filtern.
00:42:00
Kai Ole Hartwig
Das gehört ja auch zum Einrichten vom Monitoring, dass man sagt, man richtet es sinnbehaftet ein und sinnvoll ein und sagt jetzt nicht, naja, gut, ich schmeiße jetzt hier alles rein und über alle Services möchte ich nur, naja, wenn man halt gerade, wenn man so problematische Dinge hat, muss man natürlich sagen, okay, ich brauche
00:42:09
Daniel Langemann
Ja.
00:42:29
Kai Ole Hartwig
Jetzt sind wir in der wunderbaren Kubernetes-Welt und können halt sagen, okay, wir haben da sehr unterschiedliche Ebenen, auf die wir draufschauen können.
00:42:38
Kai Ole Hartwig
Meistens muss man ja sagen, okay, der Service ist eigentlich das, wo wir draufschauen wollen.
00:42:43
Daniel Langemann
Ja.
00:42:44
Kai Ole Hartwig
Weil es ist ja auch kritisch, wenn ich jetzt fünf Pods da habe und einer schmeißt aber die ganze Zeit Fehler, okay, dann ist irgendwie die Entscheidung, dieser Pod muss weg und ein neuer muss starten.
00:42:59
Kai Ole Hartwig
aber dann macht es ja trotzdem Sinn, mein Alerting, mein Monitoring auf Service-Ebene zu haben und dann zu erkennen, ah, wir haben einen Pod, der ist irgendwie auf einer schlechten Note gelandet und hat da Probleme, keine Ahnung.
00:43:12
Daniel Langemann
Ja, genau das sind ja Sachen, die du dann aggregieren kannst und sogar adressieren kannst und sagen kannst, guck mal, weiß ich nicht, 500er, die nach einem Deployment oder 500er, die durch die Decke gehen, das ist einfach ein Ding, da muss das Alerting den Entwicklern Bescheid sagen.
00:43:15
Kai Ole Hartwig
Ja.
00:43:28
Daniel Langemann
Ist das aber so Fehlermeldungen, die aus der Infrastruktur kommen?
00:43:31
Daniel Langemann
Also weiß ich nicht.
00:43:33
Daniel Langemann
Andere Sachen davor, andere Loks, die anschlagen, wo

Krisenkommunikation und Eskalation

00:43:36
Daniel Langemann
Sachen.
00:43:36
Daniel Langemann
Da kannst du sagen, guck mal, das ist ja eher was so für Ops oder für diejenigen, die für den Betrieb zuständig sind.
00:43:42
Daniel Langemann
Hast du dann Metriken, die so eher in Richtung Umsatz, Kunden oder, ne, also vielleicht hast du auch irgendwo was drin, was Reklamationen oder solche Sachen betrifft, ne, also zum Beispiel Bewertungen und, und, und, und da verändern sich Sachen, da sind wieder ganz andere, ne, andere Zielgruppe, die da benachrichtigt werden muss.
00:43:58
Kai Ole Hartwig
Ja, und ich bin auch immer ein großer Freund von Kaskaden, also das ist hoch eskaliert automatisch.
00:44:01
Daniel Langemann
Was ich aber...
00:44:09
Daniel Langemann
Immer den Chef in CC, okay.
00:44:09
Daniel Langemann
Okay.
00:44:09
Daniel Langemann
Okay.
00:44:11
Kai Ole Hartwig
Naja, nicht immer den Chef in Sitzig, aber ab einer bestimmten Dauer oder Häufigkeit oder also Schwere des Problems bin ich der Meinung, dass automatisch das durchaus bis Zielevel hoch eskaliert werden muss und kann und soll.
00:44:32
Daniel Langemann
Habe ich bis jetzt noch nicht gehabt, weil für mich war das so, es gibt denen, die Verantwortlichen, die kriegen diese Info und was sie damit machen.
00:44:40
Daniel Langemann
Wenn die die verschweigen, dann hat das hoffentlich einen Grund und die sind fachlich Experten genug, dass da zum Beispiel das nicht gemeldet werden muss.
00:44:51
Daniel Langemann
Wenn du dann natürlich das hast, dass sie, also wenn Leute solche Sachen ignorieren oder nicht ernst nehmen, dann hast du aber ein grundlegendes Problem.
00:45:00
Kai Ole Hartwig
Ich gehe ja immer davon aus, die Leute sind dann schon im Stress, in der Chaosphase der Katastrophe.
00:45:04
Daniel Langemann
Das ist ganz was für die Hochenlage.
00:45:07
Daniel Langemann
Aber, hm.
00:45:08
Kai Ole Hartwig
So, jetzt kommt ja wieder mein Blaulichtmilieu bei mir durch, wo ich sage, die Chaosphase können wir nicht vermeiden, da haben wir auch Kommunikationschaos, wir haben
00:45:19
Kai Ole Hartwig
den Personal- und vielleicht Ressourcenmangel.
00:45:23
Kai Ole Hartwig
Also es gibt einen Mangel und deswegen funktioniert auch Kommunikation nicht.
00:45:29
Kai Ole Hartwig
Und jetzt bricht der Umsatz gerade auf null ein.
00:45:36
Kai Ole Hartwig
Länger als eine halbe Stunde, schon eine Stunde.
00:45:38
Kai Ole Hartwig
Also es gibt echte Probleme.
00:45:39
Kai Ole Hartwig
Genau.
00:45:39
Daniel Langemann
Reales Beispiel.
00:45:40
Daniel Langemann
Also war ja so.
00:45:42
Daniel Langemann
Und was ich jetzt nicht gesagt habe und natürlich unausgesprochen angenommen habe, ist, es gibt unterschiedliche Rollen.
00:45:49
Daniel Langemann
Natürlich kriegt das Team die Info oder im Team verteilt sich die Info.
00:45:53
Daniel Langemann
Und das hat immer dazu geführt, dass ich...
00:45:56
Daniel Langemann
Wir hatten halt so die Abstimmung, wenn sowas passiert, ist Slack zu und aus.
00:46:02
Daniel Langemann
Oder zumindest gemutet und die drei Entwickler, die da im Team sind, sitzen zusammen und lösen das Problem.
00:46:08
Daniel Langemann
Der PO hatte auch die Info und der war der Einzige, der zu den Entwicklern durchgekommen ist und der hat sich um die Kommunikation gekümmert.
00:46:14
Daniel Langemann
Weil natürlich alle Leute sagen, oh, guck mal, unser Shop ist offline, ich helfe den Entwicklern mal, indem ich denen auch nochmal eine Info schicke, wie die anderen 600 Mitarbeiter.
00:46:24
Daniel Langemann
Und jeder will dir helfen.
00:46:26
Daniel Langemann
Also natürlich muss das geklärt sein.
00:46:28
Daniel Langemann
Also müssen diese Rollen klar sein, dass du sagen kannst, guck mal, wenn die Entwickler das mitkriegen oder jemand sagt den Entwicklern Bescheid, dann gehen die in ihre kleine Höhle und konzentrieren sich darauf, den Fehler zu lösen, so schnell wie möglich.
00:46:38
Daniel Langemann
Holen sich Leute dazu, die sie brauchen, um das zu lösen.
00:46:41
Daniel Langemann
Und der Einzige, der dann, also im Team, der die Kommunikation übernimmt, kann Scrum Master sein, kann Product Owner sein, kann Teamleiter sein oder Lead Dev von mir aus, eine Person, dass alle da aufschlagen.
00:46:53
Kai Ole Hartwig
Genau, und die Annahme, die ich mit drin habe, ist, diese Person ist auch ausgelastet und achtet nicht auf die Zeit in dem Stress.
00:46:54
Daniel Langemann
Mhm.
00:47:02
Kai Ole Hartwig
So, und irgendwann wird ja die Situation so, dass sie so kritisch ist, dass es halt
00:47:08
Kai Ole Hartwig
C-Level betrifft und das C-Level informiert sein muss und handlungsfähig werden muss und deswegen wirklich eine Kaskade, natürlich mit entsprechender Zeit und so weiter, also ordentlich ausgearbeitet, nicht einfach, oh, das ist jetzt fünf Minuten offline, jetzt geht die E-Mail an den Chef raus, sondern vernünftige Eskalationsstufen drin sind, aber halt automatisiert, damit diese Information automatisiert weitergetragen wird und nicht verloren geht.
00:47:27
Daniel Langemann
Mhm.
00:47:27
Daniel Langemann
Mhm.
00:47:36
Kai Ole Hartwig
Ja, also ich sage jetzt mal, erst mal es tritt was auf, Junior Dev wird informiert.
00:47:43
Kai Ole Hartwig
So, der bekommt das Ganze in Zeitraum X, sagen wir mal 15 Minuten, nicht gelöst.
00:47:51
Kai Ole Hartwig
Dann geht quasi das weiter und Senior Dev wird informiert.
00:47:57
Kai Ole Hartwig
Der schaut drauf und bekommt es auch in Zeitraum X nicht gelöst.
00:48:02
Daniel Langemann
Kündigung raus, nächster informieren.
00:48:02
Kai Ole Hartwig
Dann
00:48:03
Daniel Langemann
Mhm.
00:48:04
Kai Ole Hartwig
So, und dann geht es halt an PO und so weiter, weißt du?
00:48:07
Kai Ole Hartwig
So diese Kaskade in der Annahme.
00:48:10
Kai Ole Hartwig
Erst immer, okay, das ist vielleicht etwas, was leicht zu lösen ist und dann geht man halt höher, holt mehr Leute dazu, mehr Erfahrung dazu, mehr Verantwortlichkeit und verteilt damit auch die Verantwortlichkeit und nimmt sicher auch selber ein Stück den Druck raus.
00:48:27
Kai Ole Hartwig
Wenn quasi der PO, der Chef, der CTO, CEO, der
00:48:33
Kai Ole Hartwig
informiert

Geschäftskontinuitätsplanung

00:48:34
Kai Ole Hartwig
werden darüber, dann wissen die aber ja auch schon, okay, das läuft jetzt ja schon eine Zeit, die sind da ja schon dran,
00:48:45
Daniel Langemann
Zumindest, dass sie dann kommunizieren können oder weitere Sachen veranlassen können, ja.
00:48:47
Daniel Langemann
Hm.
00:48:48
Kai Ole Hartwig
einfach weitere Sachen veranlassen können und auch selber informiert sind und handlungsfähig sind.
00:48:53
Kai Ole Hartwig
Das ist immer so mein Gedanke in diesen ganzen Dingen.
00:48:58
Kai Ole Hartwig
Das, was nämlich in Krisen nie gut funktioniert, in dieser Chaosphase der Katastrophe, ist nämlich die Kommunikation.
00:49:06
Kai Ole Hartwig
Die Kommunikation bricht immer als erstes zusammen.
00:49:11
Kai Ole Hartwig
Wir wissen aus genug
00:49:13
Daniel Langemann
Aber ohne, dass ich Ahnung davon habe, werfe ich jetzt das Fachwort Triage rein.
00:49:19
Daniel Langemann
Was haben wir noch gar nicht in der Uhrzeit?
00:49:19
Kai Ole Hartwig
Ja.
00:49:20
Daniel Langemann
Also nicht jeder Alarm ist ja gleich schlimm.
00:49:24
Daniel Langemann
Also wenn das Import-Tool kaputt ist und, weiß ich nicht, die neuen Produktdaten nicht reinkommen, ist es nicht jeder, zum Glück.
00:49:29
Kai Ole Hartwig
Ja, nicht jeder stirbt in der Katastrophe, genau.
00:49:32
Daniel Langemann
Ja.
00:49:34
Kai Ole Hartwig
Aber das Leben ist schon ein vorübergehender Zustand.
00:49:41
Kai Ole Hartwig
So.
00:49:42
Daniel Langemann
Oh mein Gott, jetzt werden wir esoterisch, ja?
00:49:43
Daniel Langemann
Ja, ja, ja.
00:49:43
Daniel Langemann
Und sowas lässt du vom Stapel ohne Kaffee.
00:49:45
Kai Ole Hartwig
Das ist nicht esoterisch, das ist harte Realität, Daniel.
00:49:49
Kai Ole Hartwig
Also.
00:49:50
Kai Ole Hartwig
unsere Zeit auf dieser Murmel, auf der wir hier rumfliegen, ist begrenzt.
00:49:55
Kai Ole Hartwig
Zumindest mit dem bewussten Bewusstsein, soweit wir das beurteilen können.
00:50:04
Kai Ole Hartwig
Ja, ich musste ja auf Rum umsteigen.
00:50:08
Kai Ole Hartwig
Nein, aber... Ja, genau.
00:50:11
Daniel Langemann
Du trinkst nicht Kaffee mit Schuss, sondern Schuss ohne Kaffee, ne?
00:50:14
Daniel Langemann
Boah, ja.
00:50:15
Daniel Langemann
Also es wird Zeit.
00:50:16
Daniel Langemann
Also
00:50:16
Kai Ole Hartwig
Wir krock jetzt, Tee mit Rum.
00:50:20
Kai Ole Hartwig
Gorkmus, wie war das?
00:50:24
Kai Ole Hartwig
Tee, Zucker kann Wasser oder ich weiß es nicht mehr.
00:50:27
Kai Ole Hartwig
Also egal, Gorkrezept kann ich jetzt nicht auswendig spontan.
00:50:32
Kai Ole Hartwig
Aber natürlich, ja, Triage von Fehlern und so gehört natürlich auch dazu.
00:50:39
Kai Ole Hartwig
So, da habe ich jetzt aber keine gute Metrik.
00:50:42
Kai Ole Hartwig
Also ich sage immer, in dem Blaulichtmilieu, wo ich unterwegs bin,
00:50:43
Daniel Langemann
Ja genau, und darauf wollte ich hinaus, das kann der Mensch einfach besser.
00:50:47
Daniel Langemann
Dieses Beurteilen und sagen, guck mal, da gehen gerade Sachen, haben wir deployed, wir haben nichts deployed und auf einmal passieren Sachen, dann ist das ja was anderes, als wir haben gerade deployed und überall gehen alle roten Lämpchen an oder so und die Mutterkontrollleuchte leuchtet und alles geht.
00:51:02
Daniel Langemann
Da würden auch die Entwickler ja direkt sagen, komm, wir setzen uns alle zusammen, alle, die daran beteiligt waren, Brainstorming halbe Stunde oder und fixen das.
00:51:11
Kai Ole Hartwig
Ich sage jetzt mal, Abläufe und Algorithmen dazu sind eigentlich ursächlicher Bestandteil des BCM, des Business Continue.
00:51:21
Daniel Langemann
Du wolltest keine Fachwörter heute benutzen.
00:51:21
Kai Ole Hartwig
Hast du nicht gesehen?
00:51:23
Daniel Langemann
Lass das.
00:51:24
Daniel Langemann
Ich passe das BCM.
00:51:24
Daniel Langemann
Okay.
00:51:27
Kai Ole Hartwig
Business Continue Management, also die Planung, wie es sein kann, den Betrieb wieder aufzunehmen.
00:51:37
Kai Ole Hartwig
Also gehen wir mal davon aus,
00:51:39
Kai Ole Hartwig
Wir treffen jetzt völlig in ein neues Thema.
00:51:41
Kai Ole Hartwig
Egal.
00:51:43
Kai Ole Hartwig
Kurz zusammenfassend.
00:51:44
Kai Ole Hartwig
Wir gehen mal davon aus, das Rechenzentrum ist abgefackelt, wo alle deine Daten drin liegen.
00:51:48
Kai Ole Hartwig
Du hast aber, weil du schlau warst und das im BCM geplant hast, ein Offsite-Backup.
00:51:55
Daniel Langemann
Daniel muss auch den Roller und das Backup holen.
00:51:56
Kai Ole Hartwig
Dann steht in deinem BCM auch drin, wie läuft das denn jetzt ab, dass es jetzt wieder losgeht.
00:51:56
Daniel Langemann
Mhm.
00:52:00
Kai Ole Hartwig
Wie läuft das?
00:52:05
Kai Ole Hartwig
Ja, genau, so, also diese Abläufpläne, was passiert wann, dass man das mal geplant hat und vor allem auch durchgespielt hat, das ist jetzt im Kritis-Bereich im Übrigen wesentlich relevanter, aus meiner Sicht, als so jetzt im Geschäftsbetrieb, aber natürlich, auch im normalen Geschäftsbetrieb muss so etwas geplant sein und muss vorhanden sein.
00:52:26
Kai Ole Hartwig
Ich glaube, ich bin mir jetzt nicht zu 100% sicher, aber ich meine, es ist
00:52:31
Kai Ole Hartwig
im Rahmen der ISO 27001 auch Pflichtbestandteil, das WCM.
00:52:37
Daniel Langemann
Okay, also Fachwort noch nicht gehört, aber ja.
00:52:38
Kai Ole Hartwig
IT-Sicherheit,

Abschluss und Ausblick

00:52:41
Daniel Langemann
Vollkommen bei dir.
00:52:43
Kai Ole Hartwig
in den IT-Sicherheitsmanagementsystemen sollte auch immer drin sein, geht es denn jetzt weiter.
00:52:49
Kai Ole Hartwig
Ja, aber
00:52:51
Daniel Langemann
Wer ist alles zu informieren?
00:52:53
Daniel Langemann
Also welche Abteilung, welche Abteilung betrifft das?
00:52:55
Daniel Langemann
Ist ja auch immer so ein Thema, was relevant ist.
00:52:58
Daniel Langemann
Also zum Beispiel Customer Care kannst du, oder Kundensupport kannst du direkt anrufen und sagen, hier, wir wissen, Problem, arbeiten dran.
00:53:04
Kai Ole Hartwig
Ja, was machst du, wenn das Büro abgefackelt ist?
00:53:05
Daniel Langemann
Und
00:53:08
Daniel Langemann
Feierabend.
00:53:10
Kai Ole Hartwig
Ja?
00:53:13
Kai Ole Hartwig
Passt.
00:53:14
Kai Ole Hartwig
Sollten wir das auch machen mit dieser Folge.
00:53:16
Daniel Langemann
Ja.
00:53:17
Daniel Langemann
Müssen wir bei der nächsten weitermachen.
00:53:25
Kai Ole Hartwig
Was für ein Ende.
00:53:26
Kai Ole Hartwig
Gut, das war eine wunderbare Folge.
00:53:29
Kai Ole Hartwig
Secrets not included.
00:53:32
Kai Ole Hartwig
Wir überlegen dann mal, wie unser BCM-Konzept für den Podcast aussieht oder so und freuen uns auf nächste Woche.
00:53:38
Daniel Langemann
Ja.
00:53:39
Kai Ole Hartwig
Macht's gut.
00:53:39
Kai Ole Hartwig
Ciao, ciao.