Oops!Zencastr was unable to start because Javascript is disabled
To fix this problem, check your browser's settings and enable Javascript

Become a Creator today!Start creating today - Share your story with the world!

00:00:00

00:00:01

Monitoring, Alerting und Logging: Warum Daten erst wertvoll werden, wenn man daraus handelt

S1 E21 · Secrets Not Included

34 Plays1 month ago

In Folge 21 von Secrets Not Included sprechen Ole und Daniel über Logging, Monitoring, Alerting und datengetriebene Entscheidungen. Es geht um Request-IDs, Dashboards, Message Queues, CVE-Metriken, Eskalationsketten und die Frage, warum gutes Monitoring nicht nur Systeme stabiler macht, sondern auch Teams ruhiger schlafen lässt.

Recommended

KI ist nur so gut wie du: Warum Expertise über Mittelmaß entscheidet image

KI ist nur so gut wie du: Warum Expertise über Mittelmaß entscheidet

S1 E24 · Secrets Not Included

00:51:13·10 days ago

K3s: Kubernetes ohne Overkill image

K3s: Kubernetes ohne Overkill

S1 E23 · Secrets Not Included

00:41:13·22 days ago

Monitoring richtig gedacht: Von Logs über Alerting bis zu datengetriebenen Entscheidungen image

Monitoring richtig gedacht: Von Logs über Alerting bis zu datengetriebenen Entscheidungen

S1 E22 · Secrets Not Included

00:53:41·27 days ago

Secrets Not Included: KI nimmt uns nicht das Programmieren weg. Sondern manchmal den Spaß daran. image

Secrets Not Included: KI nimmt uns nicht das Programmieren weg. Sondern manchmal den Spaß daran.

S1 E20 · Secrets Not Included

00:47:13·1 month ago

Secrets Not Included: Wenn KI Pentests fährt und Composer endlich härter wird image

Secrets Not Included: Wenn KI Pentests fährt und Composer endlich härter wird

S1 E19 · Secrets Not Included

00:43:50·1 month ago

Secrets Not Included: Warum Kubernetes-Projekte scheitern – obwohl Kubernetes nicht schuld ist image

Secrets Not Included: Warum Kubernetes-Projekte scheitern – obwohl Kubernetes nicht schuld ist

S1 E18 · Secrets Not Included

00:46:31·1 month ago

Secrets Not Included: Security-Theater mit Zertifikat: Warum ISO & Co. keine Systeme retten image

Secrets Not Included: Security-Theater mit Zertifikat: Warum ISO & Co. keine Systeme retten

S1 E17 · Secrets Not Included

00:42:41·2 months ago

Secrets Not Included: Agentic Engineering statt Vibe Coding: Warum KI gute Entwickler nicht ersetzt image

Secrets Not Included: Agentic Engineering statt Vibe Coding: Warum KI gute Entwickler nicht ersetzt

S1 E16 · Secrets Not Included

00:53:23·2 months ago

Secrets Not Included: Docker vs. Podman: Rootless, Open Source und ein bisschen KI-Chaos image

Secrets Not Included: Docker vs. Podman: Rootless, Open Source und ein bisschen KI-Chaos

S1 E15 · Secrets Not Included

00:41:25·2 months ago

Secrets Not Included: Automatisierte Deployments sind kein Luxus mehr image

Secrets Not Included: Automatisierte Deployments sind kein Luxus mehr

S1 E14 · Secrets Not Included

00:38:17·2 months ago

Secrets Not Included: Cybersecurity, KI und Post-Quantum: Was jetzt auf uns zukommt image

Secrets Not Included: Cybersecurity, KI und Post-Quantum: Was jetzt auf uns zukommt

S1 E13 · Secrets Not Included

00:42:18·3 months ago

Secrets Not Included: Policies image

Secrets Not Included: Policies

S1 E12 · Secrets Not Included

00:37:42·3 months ago

Secrets Not Included: Lieferkettensicherheit image

Secrets Not Included: Lieferkettensicherheit

S1 E11 · Secrets Not Included

00:33:53·3 months ago

Secrets Not Included: Zehn Folgen. Zeit, ehrlich zu werden. image

Secrets Not Included: Zehn Folgen. Zeit, ehrlich zu werden.

S1 E10 · Secrets Not Included

00:50:57·3 months ago

Secrets Not Included: Pipeline Security image

Secrets Not Included: Pipeline Security

S1 E9 · Secrets Not Included

00:43:49·3 months ago

Secrets Not Included: Wie schreibt man Tickets Richtig? Was ist Spec-Driven-Development? image

Secrets Not Included: Wie schreibt man Tickets Richtig? Was ist Spec-Driven-Development?

S1 E8 · Secrets Not Included

00:35:25·4 months ago

Secrets Not Included: pair programming image

Secrets Not Included: pair programming

S1 E7 · Secrets Not Included

00:37:05·4 months ago

Secrets Not Included: Post-Quantum-Cryptography (PQC) - Jetzt schon? image

Secrets Not Included: Post-Quantum-Cryptography (PQC) - Jetzt schon?

S1 E6 · Secrets Not Included

00:32:21·4 months ago

Secrets Not Included: OpenClaw & Sicherheit image

Secrets Not Included: OpenClaw & Sicherheit

S1 E5 · Secrets Not Included

00:30:52·4 months ago

Secrets Not Included: SSH Sicherheit image

Secrets Not Included: SSH Sicherheit

S1 E4 · Secrets Not Included

00:50:37·5 months ago

Transcript

Einführung und Thema der Episode

00:00:01

Kai Ole Hartwig

Hallo und willkommen zurück zu Secrets Not Included, wie immer mit Daniel und Ole.

00:00:07

Kai Ole Hartwig

Dieses Mal zur schon 21.

00:00:10

Kai Ole Hartwig

Folge.

00:00:11

Kai Ole Hartwig

Wir haben vergessen, Kuchen zu backen, letzte Woche.

00:00:16

Kai Ole Hartwig

Also backt ihn euch selber, wenn ihr die letzte Folge gehört habt oder holt es schnell nach.

00:00:21

Kai Ole Hartwig

Und in dieser Woche soll es um das beliebte Thema Monitoring, ich kann schon wieder nicht sprechen, also um Monitoring gehen.

Unterscheidung zwischen Monitoring und Alerting

00:00:31

Kai Ole Hartwig

Perfekt, keine Fremdsworte heute, Daniel, ja?

00:00:35

Daniel Langemann

Ich versuch's, ich versuch's.

00:00:37

Kai Ole Hartwig

Also du die Fremdsworte, ich dann ohne Fremdsworte.

00:00:39

Daniel Langemann

Also das Aufzeichnen von Events, genannt auch Monitoring.

00:00:43

Daniel Langemann

Nein.

00:00:47

Daniel Langemann

Ja, also wir hatten uns das Thema Monitoring herausgesucht.

Bedeutung von Logging und Datenaggregation

00:00:51

Daniel Langemann

Ich habe keine Ahnung, wo wir gehen, oder wir haben keinen Plan, wo wir hinwollen, thematisch.

00:00:57

Daniel Langemann

Das ist schon mal gut, aber vielleicht stecken wir erst mal ab, was ist denn, also, wo sehen wir Monitoring oder was ist Monitoring?

00:01:03

Daniel Langemann

Weil ich zum Beispiel, ich bin jemand, der in Projekten gerne das auch durcheinander oder mischt, so Alerting mit Monitoring vermische ich gerne.

00:01:13

Daniel Langemann

Also, wenn ich darüber rede und rede von Monitoring, meine aber Alerting, und das eine ist ja nicht das andere.

00:01:20

Kai Ole Hartwig

Jetzt steckst du direkt so tief in diese Grundsatzdefinition ein.

00:01:22

Daniel Langemann

Ja, keine Fachwörter, aber...

00:01:25

Daniel Langemann

Und deswegen hätte ich jetzt gesagt, wir reden erstmal nur über Logging, heißt, was heißt das für dich?

00:01:31

Daniel Langemann

Also sind das Applikations-Events, die zum Beispiel irgendwo, wo jemand reingucken kann, sagen kann, guck mal, die Kunden kaufen, kaufen, kaufen.

00:01:39

Daniel Langemann

Oder ist das nur für das System darunter, dass der Admin reinguckt und sagt, guck mal, CPU ist bei 80%, wir müssen ein bisschen skalieren.

00:01:48

Daniel Langemann

Festplatte ist toll.

00:01:49

Kai Ole Hartwig

Ja.

00:01:50

Daniel Langemann

Also es gibt ja super viel, was du loggen kannst und auch viel zu viel.

00:01:54

Kai Ole Hartwig

Loggen ist aber ja auch wieder was anderes als Monitoring.

00:01:58

Kai Ole Hartwig

Und was jetzt gerade komplett gefehlt hat, eigentlich eins meiner Lieblingsthemen, nämlich was macht man denn eigentlich mit dem ganzen Spaß Richtung Data-Driven Decisions?

00:02:10

Kai Ole Hartwig

Also aus dem Monitoring, Alerting, Logging oder Logging, Monitoring, Alerting Richtung datengetriebene Entscheidungen treffen, um jetzt nochmal eine sinnvolle Reihenfolge vielleicht festzulegen, wo man gedanklich einsteigt.

00:02:16

Daniel Langemann

Richtig, wenn nichts passiert, dann passieren die Events halt woanders.

00:02:18

Daniel Langemann

Keine nächtlichen Einsätze.

00:02:27

Kai Ole Hartwig

Also man muss ja keine Gedanken sich über das Alerting machen, wenn man kein Monitoring hat, wenn man kein Logging hat.

00:02:37

Kai Ole Hartwig

Ja, also ich meine, dann ist das E-Learning auch sehr ruhig.

00:02:41

Kai Ole Hartwig

Also, ich sehe Vorteile.

00:02:49

Kai Ole Hartwig

Also, ja, Logging.

00:02:52

Kai Ole Hartwig

Also ich sage jetzt mal, Daten haben ist erstmal besser als Daten brauchen.

00:02:57

Daniel Langemann

Ja.

00:02:57

Daniel Langemann

Mhm.

00:03:00

Kai Ole Hartwig

Jetzt gibt es natürlich verschiedene Ebenen.

00:03:02

Kai Ole Hartwig

Ich würde grundsätzlich immer in der Applikation loggen.

00:03:06

Kai Ole Hartwig

was Fehler angeht.

00:03:08

Kai Ole Hartwig

Je schwerwiegender die Fehler sind, je eher würde ich es loggen.

00:03:13

Kai Ole Hartwig

Also eine Info- oder ein Deprecated hat hoffentlich im Log vom Produktivsystem nichts zu suchen, zumindest mal was die Applikation angeht.

00:03:25

Kai Ole Hartwig

Das sollte, also meiner Meinung nach, sollte man Deprecated Functions auch nie in einem Produktivsystem haben.

00:03:33

Kai Ole Hartwig

Aber das ist vielleicht ein anderes Thema.

00:03:37

Daniel Langemann

Ja, je nachdem, was du nutzt, kannst du das ja gar nicht rausschmeißen.

00:03:40

Daniel Langemann

Sagen wir, du hast eine LTS-Version von irgendeinem Framework oder so.

00:03:45

Daniel Langemann

Da sind ja auch schon Meldungen mit drin, wo du sagst, wenn ich die wegmache, bin ich dann auf der nächsten Version.

00:03:50

Daniel Langemann

Aber ich kann noch gar nicht upgraden oder irgendwelche Constraints verhindern das gerade.

00:03:54

Daniel Langemann

Also... Hm.

00:03:54

Kai Ole Hartwig

Ja, ich sage ja, das ist ein Thema für, wir lagern das mal aus in eine andere Folge.

00:04:00

Kai Ole Hartwig

Ich glaube, da können wir sehr lange drüber gehen.

00:04:07

Kai Ole Hartwig

Meine Vision ist immer, keine Deprecated-Meldungen zu haben.

00:04:11

Daniel Langemann

Das ist das Ziel.

00:04:11

Daniel Langemann

Message Queue.

00:04:12

Daniel Langemann

Asynchron.

00:04:12

Kai Ole Hartwig

So, jetzt aber zurück zum Logging.

00:04:15

Kai Ole Hartwig

Und dann haben wir natürlich noch ganz viele andere nette Komponenten neben der Applikation.

00:04:19

Kai Ole Hartwig

Also fangen wir beim Web-Server an, dann haben wir noch die Firewall, dann vielleicht auch eine Web-Application-Firewall, dann haben wir sicherlich noch Systeme wie eine Datenbank rumfliegen oder wie ein Key-Value-System.

00:04:38

Kai Ole Hartwig

Message Queue, ja, so irgendein Suchserver, eine Vektordatenbank.

00:04:44

Kai Ole Hartwig

Mir fallen viele Dinge ein, die da noch ringsherum fliegen.

00:04:48

Kai Ole Hartwig

Und aus einer Sicht sollten die erst einmal alle loggen.

00:04:52

Kai Ole Hartwig

Und auch so loggen, dass diese Daten am Tagesende aggregiert, aggregierbar sind, wenn wir aufs Logging schauen.

00:05:07

Kai Ole Hartwig

Heißt, ich schreibe die vielleicht an eine Stelle, das ist absichtlich sehr offen, wo ein anderer Dienst darauf zugreifen könnte, wenn er denn existiert.

Praxisbeispiele für Monitoring und Alerting

00:05:20

Daniel Langemann

In Minecraft.

00:05:24

Daniel Langemann

Sorry.

00:05:27

Kai Ole Hartwig

Ja, meinetwegen schreibe auch die Logdaten alle nach Minecraft weg.

00:05:30

Kai Ole Hartwig

Ich wüsste spontan nicht, wie das geht.

00:05:33

Daniel Langemann

Da gibt es bestimmt jemanden, der auch da was baut.

00:05:34

Daniel Langemann

Also...

00:05:35

Kai Ole Hartwig

Aber wir können ja mal die KI fragen, was es da an Möglichkeiten gibt.

00:05:40

Daniel Langemann

Bestimmt.

00:05:40

Daniel Langemann

Je nach... Ja.

00:05:41

Daniel Langemann

Ja.

00:05:42

Kai Ole Hartwig

Baut es dann automatisch die Steine da?

00:05:45

Kai Ole Hartwig

Steine.

00:05:50

Kai Ole Hartwig

Ich habe aber gelernt, die Minecraft-Welt... Meine Kinder spielen ja Minecraft, beide.

00:05:56

Kai Ole Hartwig

Die Minecraft-Welt endet am Max-Integer-Wert.

00:06:04

Kai Ole Hartwig

Fand ich enttäuschend.

00:06:06

Kai Ole Hartwig

Und dann bricht die auch zusammen.

00:06:09

Kai Ole Hartwig

Das fand ich auch sehr spannend.

00:06:12

Daniel Langemann

Echt?

00:06:12

Daniel Langemann

Also so weit bin ich gekommen, aber cool.

00:06:13

Daniel Langemann

Tö, tö.

00:06:14

Kai Ole Hartwig

Ja, dann geht immer mehr kaputt.

00:06:15

Kai Ole Hartwig

Also du kannst diese Barriere wohl überwinden.

00:06:19

Kai Ole Hartwig

Ich glaube nicht auf der Switch, aber auf dem Rechner.

00:06:22

Kai Ole Hartwig

Und dann geht tatsächlich diese Welt nach und nach kaputt, weil die ganze Mathematik kaputt geht.

00:06:33

Kai Ole Hartwig

Logischerweise, das Datenbankfeld ist zu klein.

00:06:36

Kai Ole Hartwig

Ich kenne da ja eine einfache Möglichkeit, das zu beheben.

00:06:41

Kai Ole Hartwig

Anyway, falsches Thema.

00:06:45

Daniel Langemann

Hmm.

00:06:46

Kai Ole Hartwig

Oder vielleicht auch nicht.

00:06:47

Kai Ole Hartwig

Es gehört ja auch zum Monitoring festzustellen, hey, wir haben jetzt so viele Einträge in der Datenbank in einem bestimmten Feld, dass wir keine weiteren Einträge mehr schreiben können.

00:06:59

Kai Ole Hartwig

Das Datenbankfeld ist zu klein geworden.

00:07:03

Kai Ole Hartwig

Das hatten wir nämlich tatsächlich schon mal.

00:07:04

Kai Ole Hartwig

Das ist ein lustiges Phänomen in so einem CMS, wenn deine Datenbank auf einmal keine neuen Seiten anlegt oder keine neuen Inhaltselemente mehr und die immer verschwinden.

00:07:18

Kai Ole Hartwig

Ja, wir nennen nennen die da direkt höhere.

00:07:21

Daniel Langemann

Die Moderatoren waren bestimmt sehr begeistert.

00:07:23

Daniel Langemann

Oder Redakteure.

00:07:23

Daniel Langemann

Mhm.

00:07:30

Kai Ole Hartwig

Ja, und da war es tatsächlich so, es gab kein Monitoring darauf.

00:07:35

Kai Ole Hartwig

Es hat einfach niemand mitbekommen.

00:07:39

Kai Ole Hartwig

Jetzt muss man dazu sagen, da war klare Trennung von Verantwortlichkeiten.

00:07:44

Kai Ole Hartwig

Wir stellen die Applikation bereit, der Betrieb macht jemand anderes, inklusive Monitoring, Alerting und hast du nicht gesehen.

00:07:51

Kai Ole Hartwig

Ja.

00:07:54

Daniel Langemann

Aber das ist ein gutes Beispiel.

00:07:55

Daniel Langemann

Was ist das jetzt genau?

00:07:56

Daniel Langemann

Weil, also für mich wäre das Logging, dass entweder die Datenbank oder irgendwo eine Exception fliegt und das in einem Log landet, somit hier, guck mal, konnte nicht speichern, weil, Fehler, bla bla bla, Datenbank hat gemeldet.

00:08:11

Daniel Langemann

Das wäre ja so das Logging.

00:08:14

Daniel Langemann

Das Monitoring würde das ja irgendwo sichtbar machen.

00:08:14

Kai Ole Hartwig

Genau.

00:08:16

Daniel Langemann

Entweder gibt es dann zum Beispiel, weiß ich nicht, irgendein Dashboard, wo dann Sachen aufploppen, wo es sagt, weiß ich nicht, x Fehler in den letzten 5 Minuten, wo du so ein High-Level-View drauf hast und sagen kannst, guck mal, da sind die Punkte, wo es Probleme gibt.

00:08:31

Daniel Langemann

Oder wie ist das für dich?

00:08:35

Kai Ole Hartwig

Ja, genau.

00:08:37

Kai Ole Hartwig

Jetzt müssen wir vielleicht nochmal, das ist so ein klassisches Ding, wo ich sage, naja, das ist so eine DevOps, SRE-Rolle irgendwo, die sich genau um so Themen kümmert.

00:08:48

Kai Ole Hartwig

Und damals, das ist jetzt auch schon ein bisschen her, war es noch so, das war halt klassische Betriebsdenke.

00:08:56

Kai Ole Hartwig

Da gibt es Ops und da gibt es Entwicklung, also Dev.

00:08:59

Kai Ole Hartwig

Und das ist getrennt und die reden nur miteinander, wenn Dinge nicht funktionieren.

00:09:05

Daniel Langemann

Und wenn man sich sicher ist, dass die anderen schuld sind.

00:09:08

Kai Ole Hartwig

Genau.

00:09:09

Kai Ole Hartwig

Und ansonsten redet man nicht miteinander.

00:09:11

Kai Ole Hartwig

Und es gab halt kein, weiß ich nicht mehr, ob es Logging gab.

00:09:16

Kai Ole Hartwig

Ich glaube nicht in der Form für die Datenbank, weil sonst hätte man ja mitbekommen, da ploppt was.

00:09:22

Kai Ole Hartwig

Also sonst hätte man mitbekommen können, da ploppt was.

00:09:24

Kai Ole Hartwig

Und Monitoring gab es nämlich auch nicht so.

00:09:26

Kai Ole Hartwig

Für mich ist nämlich das erstmal Schreiben, das Logging, logischerweise klingt das so, das Aggregieren und Zusammenführen

00:09:36

Kai Ole Hartwig

ist dann für mich klassisches Monitoring.

00:09:41

Kai Ole Hartwig

Ich kann auf Daten draufschauen, wenn ich das möchte und die werden auch zusammengeführt.

00:09:46

Kai Ole Hartwig

Ich finde, das ist immer ganz wichtig.

00:09:48

Kai Ole Hartwig

Ich finde, wenn man die Daten nicht zusammenführt, dann ist es für mich noch kein Monitoring.

00:09:54

Kai Ole Hartwig

Wenn jeder Service oder jeder Server auf Eintal alleine vor sich hinschreibt und diese Daten landen nirgendwo, die werden nirgendwo zusammengeführt, dann ist das

00:10:04

Daniel Langemann

Du musst zum Beispiel in 20 unterschiedlichen Logdateien oder irgendwo nachgucken, um dann Sachen zusammenzufinden, ja.

00:10:11

Kai Ole Hartwig

Genau, dann ist das für mich noch klassisches Logging und noch kein Monitoring.

00:10:15

Daniel Langemann

Mhm.

00:10:16

Kai Ole Hartwig

Ich sage mal, bei Monitoring habe ich halt irgendwie ein Elk-Stack und ein Grafana oder meinetwegen ein Loki oder so.

00:10:24

Kai Ole Hartwig

Da stehen irgendetwas in der Richtung, wo die Daten zusammenfließen, wo ich sie durchsuchen kann, wo ich sie mir anschauen kann und im Zweifelsfall, wenn es schön ist, auch noch netterweise vielleicht ein bisschen grafisch aufbereiten kann und ein Dashboard habe, wo ich

00:10:40

Daniel Langemann

was zum Beispiel beim Debugging noch echt sehr angenehm ist, wenn du dann Sachen hast, also wenn die Sachen aufbereitet werden und zum Beispiel eine Request-ID durch mehrere Systeme durch verfolgbar ist.

00:10:49

Kai Ole Hartwig

Ja.

00:10:50

Daniel Langemann

Also das habe ich ein paar Mal erleben dürfen, oder selber noch nicht gebaut, aber immer erleben dürfen.

00:10:56

Daniel Langemann

Das ist super, dass du dann sagen kannst, ich habe hier einen Fehler, irgendwo taucht ein Fehler auf und du schmeißt diese Request-ID irgendwo rein und siehst dann auf einmal wieder, also diese eine Request durchs ganze System geporzelt ist.

00:11:09

Daniel Langemann

Und dann hast du... Also das ist, denke ich mal, das, was du mit aggregieren meinst.

00:11:13

Kai Ole Hartwig

Ja, ich meine, das ist quasi die Komfortfunktion

Überwachungstools und Datenintegration

00:11:17

Kai Ole Hartwig

für mich mit schöner Wohnen.

00:11:18

Kai Ole Hartwig

Da habe ich auch schon echt Diskussionen darüber geführt, ob denn so eine Request-ID nicht vielleicht ein personenbezogenes Datum ist und einen Nutzer identifizierbar macht.

00:11:29

Daniel Langemann

Nee, weil der nächste Request hat ja wieder eine andere.

00:11:32

Daniel Langemann

Und Und ich die nicht in Verbindung miteinander bringen kann.

00:11:35

Daniel Langemann

Also, na...

00:11:40

Daniel Langemann

Wollen wir Ragebait machen?

00:11:43

Daniel Langemann

Komm Ole, es platzt gleich aus dir heraus.

00:11:46

Daniel Langemann

Ja.

00:11:47

Kai Ole Hartwig

Ich möchte da jetzt nicht tiefer drauf eingehen.

00:11:49

Kai Ole Hartwig

Meine Meinung ist, so eine Request-ID ist das Mittel der Wahl.

00:11:56

Kai Ole Hartwig

Und ich bin auch der Meinung, Entwickler haben Zugriff auf so etwas.

00:11:58

Kai Ole Hartwig

Auch das ist eine Meinung, die nicht alle teilen auf dieser Kugel, wo wir uns bewegen.

00:12:05

Kai Ole Hartwig

Es gibt Menschen, die der Meinung sind, dass Logdaten ja nichts für Entwickler sind.

00:12:10

Kai Ole Hartwig

Anyway, darauf möchte ich jetzt auch gar nicht eingehen, weil dann nachher werde ich böse.

00:12:15

Daniel Langemann

Nee, wir wollen keinen bösen Ole.

00:12:16

Daniel Langemann

Hm?

00:12:16

Daniel Langemann

Ah, du hast einen Namen, Name-Dropping.

00:12:17

Kai Ole Hartwig

Ja, das ist eine gute Entscheidung grundsätzlich.

00:12:17

Daniel Langemann

Herrlich.

00:12:22

Kai Ole Hartwig

Aber genau, also mit aggregieren meine ich, die Logs, also die Daten aus dem Logging, werden von den unterschiedlichen Services abgeholt und werden erst einmal jetzt zum Beispiel in so ein Elastic reingeschrieben und dann zusammengeführt.

00:12:40

Kai Ole Hartwig

Ja, Name-Dropping.

00:12:41

Kai Ole Hartwig

So, perfekt.

00:12:41

Kai Ole Hartwig

Elastic ist, glaube ich, Open-Source-Produkt.

00:12:44

Kai Ole Hartwig

Also Open-Source-Produkte,

00:12:45

Daniel Langemann

Mhm.

00:12:47

Kai Ole Hartwig

supporte ich gerne viel und ich habe ja auch Open-Source-Pakete selber.

00:12:53

Kai Ole Hartwig

Wer sich ein bisschen Mühe macht, findet alle, sage ich jetzt mal, wo ich mitgewirkt habe.

00:13:00

Kai Ole Hartwig

Viel Spaß dabei.

00:13:06

Kai Ole Hartwig

Dann sind die Daten da drin und dann kann ich halt darüber suchen und

00:13:11

Kai Ole Hartwig

kann mir auch, wenn ich keine Request-ID habe, ja an einem von Zeitstempeln was zusammenreimen, so ein bisschen.

00:13:18

Kai Ole Hartwig

Wenn ich eine Request-ID habe, dann bin ich natürlich in der Premium-Kategorie für Debugging drin.

00:13:18

Daniel Langemann

Ja.

00:13:23

Kai Ole Hartwig

Dann kann ich so einen Request durch alle Systeme nachverfolgen nachverfolgen und kann dann viel leichter verstehen, was ist denn passiert.

00:13:32

Kai Ole Hartwig

Das ist für mich aber so eine Sache, wo ich sage, okay, wenn man jetzt sich diesen Observer

00:13:40

Kai Ole Hartwig

diesen Beobachtungs-Stack aufbaut?

00:13:42

Kai Ole Hartwig

Ich hab's heute nicht mit Englisch.

00:13:45

Kai Ole Hartwig

Sorry, not sorry.

00:13:46

Kai Ole Hartwig

Irgendwo ist mein Sprachzentrum noch nicht gebootet heute.

00:13:51

Kai Ole Hartwig

Das mag daran liegen, dass unsere Kaffeemaschine immer noch nicht funktional ist, da ich der Einzige bin, der in diesem Haushalt Kaffee trinkt.

00:14:00

Kai Ole Hartwig

Hat das für die anderen Menschen in diesem Haushalt keine so höhere Priorität wie für mich.

00:14:00

Daniel Langemann

Also abonniert unseren Kanal, damit Ole endlich sich eine Kaffeemaschine holen kann.

00:14:01

Daniel Langemann

Eine neue.

00:14:10

Kai Ole Hartwig

Ja, und sponsert den Kanal hier.

00:14:13

Kai Ole Hartwig

Also eigentlich brauche ich nur Spezialwerkzeug, um mal reinzuschauen, ob es nur ein Dichtungsring ist, der kaputt gegangen ist.

00:14:19

Kai Ole Hartwig

Ich sage jetzt mal, aus der Auffangschale den Kaffee immer rauszufischen, ist jetzt nicht so geil, dass ich da Bock drauf habe.

00:14:27

Kai Ole Hartwig

Deswegen lieber keinen Kaffee.

00:14:29

Kai Ole Hartwig

Anyway, das ist ein völlig anderes Problem.

00:14:31

Kai Ole Hartwig

Aber wir müssen das abonnieren und liken und teilen und sponsoren.

00:14:40

Kai Ole Hartwig

Wo war ich jetzt?

00:14:40

Kai Ole Hartwig

Jetzt denkt mein Kopf die ganze Zeit Kaffee.

00:14:46

Daniel Langemann

Bitte sehr, du warst beim Aggregierenden und der Observer-Architektur.

00:14:52

Daniel Langemann

Das du.

00:14:53

Kai Ole Hartwig

Perfekt.

00:14:54

Kai Ole Hartwig

Ich habe doch gesagt, du machst die Fremdworte.

00:14:58

Kai Ole Hartwig

Genau, also wir haben eine Architektur, die holt halt den ganzen Shit ab, packt das zusammen und wir können dann durchsuchen und in der Premium-Variante haben wir bitte eine Request-ID und dann haben Entwickler und Ops und meinetwegen auch POs Zugriff auf den ganzen Shit und können reinschauen und schauen.

00:15:19

Kai Ole Hartwig

Und dann, damit wir alle noch ein bisschen schöner wohnen,

00:15:24

Kai Ole Hartwig

machen wir uns dann schön mit grafana noch schönes dashboard wo wir dann halt sowas treten wie 500 meinetwegen auch

00:15:37

Kai Ole Hartwig

jeden anderen Chip, der uns so einfällt, Reaktionszeiten der einzelnen Services, CPU-Auslastung, RAM-Auslastung, IOTimes.

00:15:46

Kai Ole Hartwig

IOTimes finde ich auch gerade, wenn man geteilte Volumes hat, enorm wichtig, weil manchmal ist ein seltsamer Fehler einfach eine IOTime, die schlecht ist.

00:16:02

Daniel Langemann

Aber genau, solche Sachen siehst du halt, also, und das ist dann wieder der Unterschied zwischen Logging und Monitoring, ne, also Logging wäre einfach, dass die Dienste ihre Daten irgendwo ablegen und dass du in irgendeiner Textdatei, sagen wir mal, greppen müsstest, um da Sachen zu sehen und Monitoring ist halt dieses schöne Dashboard, was die Sachen zusammenführt, wo du dann, ne, wieder bei, sind wir wieder bei schöner Wohnen, was ich zum Beispiel mag, ist, wenn dann noch markiert wird, wann Deployments stattgefunden haben, weil du

00:16:30

Daniel Langemann

dann ganz schnell sehen kannst und sagen wir mal, wenn du ein Deployment machst und bei mir war es jetzt so, hast du einen Online-Shop, wo richtig viel los ist, Deployment und du kannst einfach die 10 Minuten, 15 Minuten danach drauf schauen, ob alles ruhig bleibt oder ob du auf den Button drückst, ich rolle mal schnell wieder zurück, weil was kaputt gegangen ist, solche Sachen.

Wichtigkeit von Monitoring im großen Maßstab

00:16:51

Kai Ole Hartwig

ja, ich finde, ins Logging, damit es dann im Monitoring auftaucht, gehört auch immer schon eine Versionsnummer vom jeweiligen Service.

00:17:00

Daniel Langemann

Ja, dass du............

00:17:05

Kai Ole Hartwig

Weil dann kann ich halt zum Beispiel, wenn ich so Dinge fahre wie Blue-Green-Deployments oder Continuous-Update etc., dann kann ich halt sehen, ah, jetzt ist

00:17:19

Kai Ole Hartwig

aber das war während dem Deployment, während diese Pots umgeschaltet haben und da war halt ein Seiteneffekt drin.

00:17:25

Kai Ole Hartwig

Ja, weiß ich nicht, Datenbank-Schema hat sich geändert.

00:17:30

Kai Ole Hartwig

So, und dann ist halt beim alten Service dann doch ein Seiteneffekt aufgetreten.

00:17:34

Kai Ole Hartwig

So, dann weiß ich aber auch, hey, okay, da muss ich mich jetzt gar nicht mehr so richtig drum kümmern.

00:17:34

Daniel Langemann

Ja, ja.

00:17:41

Kai Ole Hartwig

Ja, ich weiß, okay, da ist was aufgetreten, das hat sich dann kümmern.

00:17:48

Kai Ole Hartwig

dann ist es okay.

00:17:50

Kai Ole Hartwig

Und dann sind wir auch schon wieder ganz heiß nah dran am Alerting.

00:17:53

Kai Ole Hartwig

Hm.

00:17:53

Daniel Langemann

Ja, also es geht Hand in Hand, weil wenn du solche Dashboards hast, also um das Spiel weiterzuspielen, bei dem Online-Shop war es zum Beispiel auch so, dass wir ein Alerting hatten, dass wenn 30 Minuten, also während den Geschäftszeiten, sage ich mal, tagsüber, konntest du davon ausgehen, dass es keine 5 Minuten ohne Kauf gab, da haben wir ein Alerting gehabt, dass ein Alarm losgegangen ist, wenn 30 Minuten kein Kauf passiert ist, weil wir mal den Fall hatten,

00:18:21

Daniel Langemann

Deployment, irgendwas ist kaputt gegangen, der Checkout-Prozess war kaputt.

00:18:25

Daniel Langemann

Das ist natürlich als Online-Shop der Super-GAU.

00:18:32

Daniel Langemann

Es war jetzt halb so schlimm, wie es sich anhört für uns, aber genau das ist wieder der Punkt, warum Monitoring so super wichtig wird, weil

00:18:40

Daniel Langemann

Die Architekturen werden immer abstrakter.

00:18:42

Daniel Langemann

Also es geht immer mehr in Message-Queues, immer asynchroner und gerade da siehst du viel weniger als Entwickler, weil das Event wird getriggert und das kann jetzt ausgeführt werden, in zwei Minuten, in zehn oder in 15, je nachdem wie voll die Queue ist.

00:18:50

Kai Ole Hartwig

Ja.

00:18:59

Daniel Langemann

Vielleicht blockiert da gerade irgendwas und da dreht sich was im Kreis.

00:19:03

Daniel Langemann

Das kriegst du so ja gar nicht mehr mit als Entwickler.

00:19:05

Daniel Langemann

Und da ist auch kein Kunde, der dann sagt, guck mal, ich habe beim Support angerufen oder schreib eine böse E-Mail oder eine böse Bewertung.

00:19:11

Daniel Langemann

Das ist ja auch so indirektes Monitoring oft.

00:19:16

Daniel Langemann

Aber bei Message Cues kriegst du das ja gar nicht mit.

00:19:19

Daniel Langemann

Und deswegen finde ich das super wichtig.

00:19:22

Daniel Langemann

Also ist das Monitoring immer wichtiger, weil auch immer kleinere Applikationen immer mehr asynchron machen.

00:19:28

Daniel Langemann

Und dann mit dem Alerting, also wenn du schon das Monitoring hast, dann bist du schon kurz davor zu sagen, komm, ich schicke da mal eine E-Mail raus, wenn irgendein Zustand X oder Y eingetreten ist.

00:19:37

Kai Ole Hartwig

Das Modul jetzt zusätzlich zu konfigurieren, ist, glaube ich, im Gegensatz zu erst mal die ganze Aggregation zu bauen, echt nicht mehr relevant jetzt so in Zeit gemessen.

00:19:43

Daniel Langemann

Ja, ja.

00:19:48

Kai Ole Hartwig

Teil.

00:19:52

Kai Ole Hartwig

Was ich auch sagen muss, ist, je mehr unterschiedliche Teams dran sind und je mehr Services du hast, je wichtiger ist ein gutes Monitoring.

00:19:59

Daniel Langemann

Hmm.

00:20:03

Kai Ole Hartwig

Ich saß mal im Projekt

00:20:04

Kai Ole Hartwig

dann hat man ein Produkt mitgebaut, so das trifft es eher, wo wir halt wirklich auch an die Auslastungsgänzen von Elastic gekommen sind.

00:20:14

Kai Ole Hartwig

Ja, weil einfach so viele Services liefen mit so vielen Daten und wo halt einfach auch tageweise

00:20:36

Kai Ole Hartwig

gekostet hat wo man halt dann auch sagen muss man weiß ja auch nicht was tun denn jetzt gerade die anderen und da ist total hilfreich so ein system zu haben wo man dann halt sieht okay wir haben auf einmal ein problem und acht guck an bei denen hat sich die versionsnummer geändert haben wir jetzt vielleicht irgendeinen seiten effekt davon

00:21:05

Daniel Langemann

Oh ja.

00:21:05

Daniel Langemann

Mhm.

00:21:05

Daniel Langemann

Mhm.

00:21:05

Daniel Langemann

Mhm.

00:21:06

Kai Ole Hartwig

oder wenn du dann schon siehst, im anderen Team geht schon das Alerting los und du weißt, oh, wenn deren Service jetzt fehlt, dann geht in fünf Minuten unser Alerting los, weil wir nachher abhängig davon sind und wir auch eine Metrik haben mit, unsere Message-Queue läuft voll, weil da wird der Shit nicht abgearbeitet.

00:21:28

Kai Ole Hartwig

So.

00:21:28

Kai Ole Hartwig

Ähm.

00:21:32

Kai Ole Hartwig

Und gerade wenn man halt natürlich jetzt, wie bei mir in dem Fall, das Team ist, was irgendwie die Startseite mit allem verantwortet und alle Inhaltsseiten verantwortet, du bist halt, wenn bei dir was schiefläuft, sind alle anderen geliefert, mehr oder weniger.

00:21:50

Kai Ole Hartwig

Außer jemand kommt über die Suche auf eine Seite, die nicht betroffen ist, auf so ein Produkt direkt drauf.

Vorteile von Message Queues

00:21:55

Kai Ole Hartwig

Okay, dann nicht.

00:21:57

Kai Ole Hartwig

Aber wenn dein Ding steht und kaputt ist,

00:22:02

Kai Ole Hartwig

dann sorgst du dafür, dass kein Umsatz stattfindet.

00:22:05

Kai Ole Hartwig

Oder signifikant weniger Umsatz stattfindet.

00:22:07

Daniel Langemann

Ja, oft ist es, es findet gar nichts mehr statt.

00:22:10

Daniel Langemann

Also die Signifikant weniger ist ja selten erlebt.

00:22:13

Kai Ole Hartwig

Naja, das kommt ja natürlich dann darauf an, wie dein Traffic zu dem Zeitpunkt ist und wie...

00:22:19

Kai Ole Hartwig

Läuft gerade noch Radiowerbung, Fernsehwerbung, ist gerade 12 Uhr mittags oder 18 Uhr abends.

00:22:25

Kai Ole Hartwig

Also ist es vielleicht der Zeitpunkt, wo du selber sagst, so, ich gehe jetzt mal essen, jetzt passiert ja nichts mehr oder jetzt sollte nichts laufen.

00:22:30

Daniel Langemann

Aber aus Erfahrung muss ich sagen, da bin ich wieder so der Freund von Message Cues.

00:22:32

Kai Ole Hartwig

Ja.

00:22:36

Daniel Langemann

Ich mag das, weil, also bei dem einen Beispiel war es so, da sind alle Messages in die Dead Letter Queue gelaufen.

00:22:43

Daniel Langemann

Also es war nicht super, es war nicht geil, aber wir hatten einfach Zeit als Entwickler.

00:22:48

Daniel Langemann

Also diese 30 Minuten haben gereicht, dass wir ins Monitoring reingeguckt.

00:22:52

Daniel Langemann

Also wir haben leider nicht durch Alerting Infos gekriegt, aber haben ins Blogging reingeguckt, haben einen Fix gefunden, den deployed.

00:22:59

Daniel Langemann

Und dann einfach nur auf Redrive gedrückt, alle Messages wieder zurückgekippt und es ist keine Bestellung verloren gegangen.

00:23:03

Kai Ole Hartwig

Ja.

00:23:03

Kai Ole Hartwig

Ja.

00:23:06

Daniel Langemann

Also ich habe aus anderen Projekten zum Beispiel immer noch so ein bisschen PTBS, wo man sagt, man geht durch das Lok.

00:23:12

Daniel Langemann

Man greppt dann alle Kundennummern, alle Bestellungen und versucht dann möglichst alle Bestellungen irgendwie wieder herzustellen, wo du dann tagelang arbeitest, weil du möchtest natürlich auch den Umsatz nicht liegen lassen und du möchtest auch den Kunden glücklich machen, weil der wollte das ja haben.

00:23:26

Daniel Langemann

Da hast du so viel Nacharbeit, deswegen, also bei MessageQ, das ist schon... Ja, ja.

00:23:30

Kai Ole Hartwig

eben, es ist sehr geschickt, Dinge an zuverlässige Services zu schicken, das einfach nur mal aufschreiben, quasi notieren und weitergeben.

00:23:40

Kai Ole Hartwig

So, das nimmt auch viel Stress raus, gerade wenn dann auch sowas mal wieder ist, wie das SAP wird deployed.

00:23:52

Kai Ole Hartwig

Und das geht immer schief.

00:23:55

Kai Ole Hartwig

Jetzt bin ich sehr böse, aber bei uns ging es regelmäßig schief, wenn da deployed wurde, dass dann irgendwie Dinge nicht weitergegeben wurden nach der Bestellung, dass sie tatsächlich dann abgearbeitet wurden im Lager.

00:24:02

Daniel Langemann

Nimm mal.

00:24:02

Daniel Langemann

Nimm mal.

00:24:09

Kai Ole Hartwig

So, und dann bist du natürlich in der schönen Situation, dass du sagen kannst, okay, cool, ihr habt jetzt 48 Stunden keine Bestellung angenommen oder verarbeitet, weitergegeben.

00:24:22

Kai Ole Hartwig

Hier kommt 2 Millionen Umsatz für euch.

00:24:27

Kai Ole Hartwig

Viel Spaß!

00:24:29

Daniel Langemann

Das haben wir auch schon geschafft, dass wir dann das SAP, also dass das einfach mit der Flut der Messages nicht mehr klarkommt.

00:24:36

Daniel Langemann

Also das ist dann auch wieder, dieses Redrive ist dann auch ein Problem, weil du dann DDoS auf die nächsten angelegenen Systeme machst.

00:24:42

Kai Ole Hartwig

Ja, ich stemme und die das auf, die Mitarbeiter, ne?

00:24:46

Kai Ole Hartwig

Die im Lager ja picken müssen.

00:24:46

Daniel Langemann

Ja, das auch.

00:24:47

Daniel Langemann

Mhm.

00:24:48

Kai Ole Hartwig

Und das kommissionieren und rausschicken müssen.

00:24:51

Kai Ole Hartwig

Ich stelle mir dann auch vor, was so Mitarbeiter denken, wenn dann zwei Tage lang quasi nichts reingekommen ist und auf einmal kommt, pfumm!

00:25:01

Daniel Langemann

kommen die gar nicht mehr hinterher mit dem Papier in den Drucker nachlegen für die ganzen Titelisten.

00:25:06

Kai Ole Hartwig

Ja.

00:25:06

Kai Ole Hartwig

So, also.

00:25:08

Kai Ole Hartwig

Gut, da war ich zum Glück noch nicht in so einem Lager nach so einem Ding, aber eigentlich würde es mich mal wirklich interessieren, wie das dann abläuft.

Monitoring und Teamverantwortung

00:25:16

Kai Ole Hartwig

Also wie

00:25:19

Kai Ole Hartwig

wie da dann die Prozesse laufen.

00:25:21

Kai Ole Hartwig

Aber das ist reine Neugier.

00:25:23

Kai Ole Hartwig

Vielleicht auch in einem Projekt, wo ich nicht beteiligt bin, damit man immer sagen kann, hey Freunde, ich bin hier just for, mich interessiert das hier einfach nur, wie das bei euch so läuft.

00:25:29

Daniel Langemann

Ich bin der Grund dafür, dass du so scheiße Arbeitsbedingungen hast.

00:25:31

Daniel Langemann

Hm.

00:25:31

Daniel Langemann

Hm.

00:25:42

Kai Ole Hartwig

Ich bin jetzt kein SAP-Entwickler, der das kaputt gemacht hat.

00:25:45

Kai Ole Hartwig

Jetzt bin ich ja böse SAP-Bashing, so schlimm ist es ja gar nicht, hoffe ich.

00:25:56

Kai Ole Hartwig

Aber natürlich, wenn man Monitoring, Alerting und so auf diese ganzen Schlüsselfunktionen schon mal hat, dann kannst du natürlich viel ruhiger schlafen als Entwickler,

00:26:11

Kai Ole Hartwig

glaube, auf allen anderen Ebenen auch, weil du halt weißt, hey, das ist cool.

00:26:17

Kai Ole Hartwig

Das ist genauso.

00:26:19

Kai Ole Hartwig

Dann hing auch ein Dashboard, ein Grafana-Dashboard in der Teeküche, wo man die aktuellen Umsätze gesehen hat.

00:26:28

Daniel Langemann

Oh, das ist cool, ja.

00:26:30

Kai Ole Hartwig

Ja, wo man dann auch, also auch mit Tagesvergleich, Wochenvergleich und so, wo man dann halt gesehen hat, wo steht man denn.

00:26:37

Daniel Langemann

Mhm.

00:26:38

Kai Ole Hartwig

rot aufploppte, wir haben ein Problem.

00:26:42

Daniel Langemann

Ja.

00:26:42

Kai Ole Hartwig

Ja, es war halt quasi für jeden, der in diesem Bereich tätig war, war halt sichtbar, wie läuft es denn gerade?

00:26:52

Daniel Langemann

Das finde ich gut.

00:26:53

Daniel Langemann

Also weniger als Fingerpointing, sondern du hast ja so immer wenig Feedback, sagen wir mal, von dem, was man macht.

00:26:59

Daniel Langemann

Also es rappelt, klappert ja nichts oder es macht keine Geräusche, es qualmt nicht.

00:27:04

Daniel Langemann

So als Entwickler siehst du ja, machst du was, kommittest, gehst an die Kaffermaschine, spürst ja nichts mehr.

00:27:06

Kai Ole Hartwig

Ja.

00:27:10

Daniel Langemann

Und so hast du so ein bisschen visuelles Feedback.

00:27:12

Daniel Langemann

Das finde ich eigentlich ganz gut.

00:27:13

Daniel Langemann

Also wenn es nicht ein Fingerpointing nachher ausartet, dass so dein Name dann aufploppt mit, guck mal, Daniel hat als letzter committed, mit Bild am besten...

00:27:20

Kai Ole Hartwig

Nee, nee, das ja nicht.

00:27:21

Kai Ole Hartwig

Also wirklich als cross-funktionales Ding, wo alle, die irgendwie daran beteiligt sind, als es noch erlaubt war, heute geht das ja alles nicht mehr mit extern und hast du gesehen, nicht gesehen, aber wo wirklich alle Beteiligten im Prinzip auf ein, zwei Etagen, eineinhalb Etagen verteilt waren und halt da den Blick drauf hatten, wie geht es denn dem, was wir hier alle zusammen gerade schaffen.

00:27:25

Daniel Langemann

Mhm.

00:27:25

Daniel Langemann

Mhm.

00:28:04

Kai Ole Hartwig

sichtbar.

00:28:07

Kai Ole Hartwig

Aber es war eines der besten Produkte, an denen ich beteiligt war.

00:28:14

Daniel Langemann

Du nicht mehr beteiligt warst.

00:28:14

Kai Ole Hartwig

Bis zu dem Punkt, wo

00:28:14

Daniel Langemann

Alles super.

00:28:15

Daniel Langemann

Aber...

00:28:18

Kai Ole Hartwig

Nee, nee, wo dann nachher halt ja die ganzen Externen raus mussten, also nicht mehr da sitzen durften, nicht mehr so eingebunden sein durften, ja, diese ganze Scheinselbstständigkeitsdiskussion und so.

00:28:37

Kai Ole Hartwig

Und Fremddienstleisterrichtlinien, die gekommen sind, die dann natürlich auch dazu beigetragen haben, dass solche Arbeiten in der Form nicht mehr möglich sind.

00:28:45

Kai Ole Hartwig

Und darunter hat dann tatsächlich

00:28:49

Kai Ole Hartwig

messbar die qualität des produkts gelitten weil dann auch keine dicken

00:28:52

Daniel Langemann

Also ich lache, weil es für mich offensichtlich ist, aber anscheinend für andere nicht.

00:28:56

Daniel Langemann

Also ja, schade.

00:28:59

Daniel Langemann

Es ist schade, aber gerade dieses Thema Scheinselbstständigkeit, es macht vieles kaputt.

00:29:03

Daniel Langemann

Also ich finde das Gesetz nicht falsch.

00:29:05

Daniel Langemann

Also es ist dafür da, die Schwächsten zu schützen, aber nicht in der IT.

00:29:11

Daniel Langemann

Also es

00:29:16

Kai Ole Hartwig

Ja, so.

00:29:18

Kai Ole Hartwig

Aber das betraf nicht nur Freelancer, sondern das betraf alle Fremddienstleister.

00:29:23

Kai Ole Hartwig

Alle mussten da raus.

00:29:25

Kai Ole Hartwig

Und man hat dann an den Zahlen gesehen und man hat auch am Kommunikationsverhalten gesehen.

00:29:30

Kai Ole Hartwig

Wenn dann intern und externe nicht mehr direkt miteinander kommunizieren dürfen, dann gab es halt auch so Sachen wie, dass dieses Thema einfach ausgefallen sind.

Risikomanagement und Bereitstellung

00:29:50

Kai Ole Hartwig

durften.

00:29:53

Kai Ole Hartwig

Und dann halt einfach längere Ausfallzeiten da waren.

00:29:58

Daniel Langemann

wenn man sich das leisten kann.

00:29:59

Daniel Langemann

Also, es ist ja schön, wenn man sowas über Monitoring dann, oder, ne, wenn man das dann nachher sehen kann.

00:30:04

Daniel Langemann

Und das ist ja auch so ein Thema, muss ich zugeben, das habe ich bis jetzt noch seltener erlebt, dieses, was du anfangs meintest, ne, dieses Decision-Making auch noch.

00:30:13

Daniel Langemann

Also, dass man zum Beispiel auch mit diesen Daten arbeitet.

00:30:16

Daniel Langemann

Das ist ja nicht nur für Entwickler gut, sondern, dass man genau, wenn man solche Sachen blockt, also zum Beispiel Tagesumsätze, ne,

00:30:24

Daniel Langemann

pro Stunde, wie auch immer, wo man sagen kann, guck mal, an den Stunden, an den Tagen ist viel los im Shop, an den und den Zeiten ist wenig los im Shop.

00:30:31

Daniel Langemann

Wir haben ein risikoreiches Deployment, wo man als Entwickler sagt, da könnte es eine Downtime geben.

00:30:35

Daniel Langemann

Ja, perfekt.

00:30:36

Daniel Langemann

Und wenn ich dann solche Daten habe, kann ich direkt einen Finger drauflegen und sagen, guck mal, das ist eine Uhrzeit, da ist seltenst was los.

00:30:41

Daniel Langemann

Also mache ich es doch da, bevor ich dann zu der Uhrzeit mache, wo alle da sind.

00:30:46

Daniel Langemann

Oder

00:30:46

Kai Ole Hartwig

ja genau sollte aber auch einfach mal performance ja wie schnell läuft denn meine applikation wir haben zum beispiel auch ganz hart

00:30:47

Daniel Langemann

Was zum Beispiel, habe ich auch schon ein paar Mal erlebt, ist auch eine nette Geschichte, das war so ein Feature, was unbedingt gebaut werden musste, wurde auch viel Zeit reingesteckt, so eine Wunschliste.

00:30:57

Daniel Langemann

Da hat man im Nachhinein rausgefunden, ich glaube im ersten Monat haben das keine 4000 Leute genutzt, also hat sich gut gerechnet.

00:31:14

Kai Ole Hartwig

entsprechende Performance-Metriken nachher erfasst von den Applikationen selber und dann halt auch Performance-Optimierung gemacht, weil wir dann einfach auch Daten dazu hatten.

00:31:20

Daniel Langemann

Mhm.

00:31:20

Daniel Langemann

Mhm.

00:31:25

Kai Ole Hartwig

Welcher Request verbraucht denn wie viel RAM, wie viel CPU, wo hängt es denn, wo läuft es denn öfter durch, wo müssen wir denn optimieren.

00:31:33

Kai Ole Hartwig

Dann weiß man auch, warum auf einmal Caching ein Bottleneck sein kann.

00:31:37

Kai Ole Hartwig

Was es schneller machen soll, macht es auf einmal langsamer.

00:31:41

Kai Ole Hartwig

Und wenn du solche Sachen natürlich zusätzlich erfasst, ja, das geht ja über das normale Logging irgendwie aus, dann kannst du nämlich wirklich einfach mal Entscheidungen, also als Entwickler, ja, da sind die Umsätze vielleicht, die sind eher PO-relevant, denke ich mir immer so ein bisschen.

00:31:57

Daniel Langemann

Das ist ein super Thema, was du gerade ansprichst, ja.

00:32:01

Kai Ole Hartwig

Ja, aber dann hat man halt dieses...

00:32:04

Kai Ole Hartwig

auf datenbasiert Entscheidungen treffen, kann man halt auf alle Ebenen ausrollen.

00:32:08

Kai Ole Hartwig

Ja, klar, Umsätze sind super wichtig, gar kein Ding, aber das ist auch vielleicht wichtig, um zu entscheiden, welches Feature bekommt welche Priorität.

00:32:18

Daniel Langemann

Jede Abteilung hat unterschiedliche KPIs.

00:32:18

Kai Ole Hartwig

Aber für ein genau

00:32:20

Daniel Langemann

Also es ist ein ganz großer Reibungspunkt.

00:32:22

Daniel Langemann

Also das Thema, was du gerade ansprichst, triggert mich auch extrem, weil ich als Entwickler möchte, dass die Applikation stabil, kontinuierlich, gleichmäßig läuft.

00:32:32

Daniel Langemann

Andere Abteilungen, andere Personen haben ganz andere KPIs.

00:32:36

Daniel Langemann

Also es gibt zum Beispiel Umsatz als KPI.

00:32:38

Daniel Langemann

Es gibt, also berechtigterweise, es ist nicht so eins richtig, eins falsch, sondern jede Abteilung hat ihre KPIs.

00:32:45

Daniel Langemann

Ops hat zum Beispiel Inzidenz einfach, wo die sagen, guck mal, es gibt keine Inzidenz, keine Downtimes, fertig, das ist unser Ding.

00:32:50

Daniel Langemann

Und dann müssen wir vielleicht noch Betriebskosten irgendwie reduzieren.

00:32:50

Kai Ole Hartwig

Ja.

00:32:50

Kai Ole Hartwig

Mhm.

00:32:54

Daniel Langemann

Entwickler haben wieder andere KPIs und das führt dazu, dass du richtige Reibungen hast.

00:32:59

Daniel Langemann

Zum Beispiel war das in einem Projekt, war zwar eine KPI, Reaktionszeiten der Seite, also im Median, ja, aber es gab eine alte Schnittstelle, die gescrapt wurde und die hat XML in gefühlt Gigabyte größer ausgekotzt.

00:33:14

Daniel Langemann

Natürlich hat die über drei oder vier oder fünf Sekunden Ladezeiten gehabt und hat natürlich den Median komplett versaut für den Checkout.

00:33:22

Kai Ole Hartwig

Ja.

00:33:24

Daniel Langemann

Und da war ich dann immer am argumentieren, lass doch entweder das Ding ausschließen oder wir segmentieren das auf gewisse Bereiche, zum Beispiel, dass der Checkout, also wir suchen uns den Checkout raus, suchen welche Requests da passieren und fassen diese zusammen und bauen daraus ein Median, wo ich sage, das ist gut.

00:33:41

Daniel Langemann

Und da hast du viele Probleme auch, also können viele Reibungen entstehen.

00:33:44

Daniel Langemann

Und trotzdem finde ich es super wichtig, als Entwickler, wie du sagst, sagen zu können, und das hatten wir auch, wir haben uns hingesetzt und gesagt, guck mal, es ist, also auch wenn wir darüber geschimpft haben, es ist Mist, wir wollen es besser machen.

00:33:55

Daniel Langemann

Und haben uns dann Sachen einfallen lassen, haben die eingebaut und du konntest auch mal sehen, Deployment, also wirklich so ein Haken und über mehrere Tage, dass das runtergegangen ist oder Arbeitsspeicherverbrauch.

00:34:05

Daniel Langemann

Wir sind immer wieder an die Grenzen gestoßen, als wir out of memory waren.

00:34:10

Daniel Langemann

Dann machst du eine größere Kiste hin.

00:34:12

Kai Ole Hartwig

Ja.

00:34:12

Kai Ole Hartwig

Ja, aber...

00:34:13

Daniel Langemann

Die ist natürlich teurer.

00:34:14

Daniel Langemann

Ende vom Lied war, wir haben uns irgendwo hingesetzt und haben gesagt, guck mal, wenn wir das, das, das und so und so machen und nicht vielleicht komplette Objekte loggen, die serialisiert werden müssen,

00:34:23

Daniel Langemann

Arbeitsspeicher halbiert, was dann auch wieder Kosten reduziert, was andere KPIs, Gesundheit.

00:34:30

Daniel Langemann

Aber ich finde das super interessant, es macht Spaß und es ist super konfliktbehaftet, weil jede Abteilung so sein eigenes Ding hat oder eigene Richtung gehen

Sicherheitsüberwachung und Automatisierung

00:34:40

Daniel Langemann

will.

00:34:40

Daniel Langemann

Mhm.

00:34:41

Kai Ole Hartwig

dann haben wir zwei Sichten noch völlig vorgelassen.

00:34:46

Kai Ole Hartwig

Also die DevSecOps-Sicht oder DevOps-Sicht.

00:34:49

Kai Ole Hartwig

Als erstes Pipeline-Logging und Monitoring.

00:34:52

Kai Ole Hartwig

Ja, wie ist denn da die Performance?

00:34:54

Daniel Langemann

Oh ja.

00:34:55

Daniel Langemann

Okay, muss ich zugeben, habe ich noch nie gemacht.

00:34:55

Kai Ole Hartwig

Ja.

00:34:56

Daniel Langemann

Es lag an mir, nicht an GitLab.

00:34:57

Daniel Langemann

Genau.

00:34:57

Kai Ole Hartwig

Und ja, GitLab hat einen Endpoint dafür.

00:35:02

Kai Ole Hartwig

Also es gibt Endpunkte dafür, du kannst es machen.

00:35:07

Kai Ole Hartwig

Wenn du jetzt GitLab CI nutzt,

00:35:10

Kai Ole Hartwig

Das war ja nur die Seiteninformation, dass es an dir liegt.

00:35:18

Kai Ole Hartwig

Ich muss sagen, das handeln wir auch relativ tiefmütterlich.

00:35:23

Kai Ole Hartwig

Das ist so dieses, okay, es kommt schnell genug an oder nicht.

00:35:26

Kai Ole Hartwig

Aber Runner-Performance ist eigentlich auch eine wichtige Metrik, zumindest wenn du viel deployst und viel laufen hast, auch viel automatisiert laufen hast mit Renovate und anderen Sachen.

00:35:30

Daniel Langemann

Laufzeit, ja.

00:35:30

Daniel Langemann

Hm.

00:35:30

Daniel Langemann

Hm.

00:35:38

Kai Ole Hartwig

Und natürlich auch Security kannst du monitoren.

00:35:42

Kai Ole Hartwig

Wir haben nämlich den ganzen CVEs.

00:35:46

Kai Ole Hartwig

Was ist denn so in der S-Bomb drin?

00:35:49

Kai Ole Hartwig

OVAPS hat auch ein neues Tool im Übrigen jetzt rausgebracht als Beta-System, aber natürlich kannst du auch deine S-Bomb-Metrik, also die S-Bomb als Metrik benutzen und schauen, welche Versionen sind da drin und regelmäßig prüfen, gibt es denn jetzt da neue Sicherheitslücken, also im Prinzip...

00:36:07

Kai Ole Hartwig

Und ich schaue, wie viele bekannte Sicherheitslücken haben wir aktuell im System?

00:36:10

Kai Ole Hartwig

Und dann siehst du ja, okay, das geht hoch, dann läuft dein hoffentlich Renderweight los und sagt, ich habe hier Pages, ich spiele das ein.

00:36:10

Daniel Langemann

Das ist auch nicht gut.

00:36:18

Kai Ole Hartwig

Die Pipelines sind grün, die laufen schnell und dann siehst du, okay, das wird ausgerollt, verteilt und dann geht halt dein Metric für bekannte Sicherheitslücken wieder runter.

00:36:28

Kai Ole Hartwig

Nur als ein Easy-Going-Beispiel, ja, da kannst du noch viel, viel mehr natürlich loggen, nämlich wie schnell reagierst du denn tatsächlich darauf, also wann wurde es veröffentlicht, wann wurde erkannt, dass da ein Update ist und wann ist es denn jetzt tatsächlich angekommen.

00:36:43

Daniel Langemann

Und dann ist es auf Pod.

00:36:46

Daniel Langemann

Ich mag solche Metriken, weil die belohnen Entwickler.

00:36:48

Daniel Langemann

Also die belohnen das Team, weil du dann auch sagen kannst, guck mal, als Team haben wir geschafft, dass diese Metrik runtergegangen ist.

00:36:55

Daniel Langemann

Also so war es halt in den letzten Teams immer.

00:36:57

Daniel Langemann

Und Ladezeiten wurden besser.

00:37:00

Daniel Langemann

Und das ist nicht so eine Metrik, die auf ein Individuum gemünzt ist, sondern wirklich als Team.

00:37:05

Daniel Langemann

Und das hat sich auch gut angefühlt.

00:37:06

Daniel Langemann

Man war stolz darauf, dass man sagen konnte dann in einem Meeting, guck mal, wir haben das geschafft, das zu reduzieren.

00:37:11

Kai Ole Hartwig

Genau, und du kannst halt auch damit zum Beispiel sehen, okay, dieses Investment in Automatisierung hat sich gelohnt, weil jetzt sind wir x Prozent schneller damit.

00:37:21

Daniel Langemann

Ja.

00:37:23

Kai Ole Hartwig

Also unser Deployment, das Schließen von Sicherheitslücken und so weiter und so fort.

00:37:28

Kai Ole Hartwig

Oder auch, dass wir Infrastructure as Code betreiben und entsprechende Systeme,

00:37:39

Kai Ole Hartwig

oder, oder, oder, es gibt ja tausend oder eine Variante, Betreiben und Nutzen hat dazu beigetragen, dass unsere Systeme stabiler laufen, dass wir schneller ausrollen, dass wir nach dem, was wir wissen, sicherer unterwegs sind.

00:37:55

Daniel Langemann

Mhm.

00:37:55

Daniel Langemann

Mhm.

00:37:56

Kai Ole Hartwig

So, jetzt Sicherheit ist immer eine schwierige

00:38:08

Kai Ole Hartwig

denn davon ganz Phänometriken, weil die verwischen nichts und die verwaschen nichts.

00:38:15

Kai Ole Hartwig

Also die sind relativ klar.

00:38:19

Kai Ole Hartwig

Und da finde ich andere KPIs in dem Sicherheitsbereich immer schwieriger.

00:38:25

Kai Ole Hartwig

Aber es gibt ja, wenn man jetzt mal auf diese ISO-Geschichten schaut, tausend und zwei Dinge, die eigentlich damit reingehören, die jetzt aber vielleicht für uns gar nicht so spannend sind.

00:38:36

Daniel Langemann

Ja, also genau, man muss so seine Metrik ein bisschen finden.

00:38:40

Daniel Langemann

Und dann auch gucken, was man da rein interpretiert.

00:38:42

Daniel Langemann

Nur weil da eine Zahl dran steht, heißt das ja nicht, dass sie eine sinnvolle Zahl ist oder eine gute Bedeutung hat.

00:38:48

Kai Ole Hartwig

Ja.

00:38:48

Daniel Langemann

Das ist schwer.

00:38:50

Kai Ole Hartwig

Ich finde auch zum Beispiel ein Alerting auf, es gibt neue Critical CVEs sinnvoll.

00:38:58

Kai Ole Hartwig

Oder auch High finde ich auch noch wichtig, weil manchmal haben wir jetzt ja auch die Situation, die Sicherheitslücke wird bekannt, es gibt aber noch keinen Patch.

00:39:07

Kai Ole Hartwig

Da muss ja jemand quasi zum Beispiel für NixOS die Mitigation reinmachen und deployen lassen.

00:39:14

Daniel Langemann

Mhm.

00:39:16

Kai Ole Hartwig

Oder

00:39:22

Kai Ole Hartwig

Und dann bekommt man es aktiv mit.

00:39:26

Kai Ole Hartwig

Ja, und dann wird man auch nicht, wenn man nämlich nur über die eigenen Pakete ja quasi drüber geht, die man ja durch die S-Bomb erfasst hat, dann hast du nicht diesen Lärm aus Sicherheitslücken um dich rum, die dich eigentlich gar nicht betreffen.

00:39:42

Kai Ole Hartwig

Ja, also, weil es gibt ja...

00:39:43

Daniel Langemann

Ja, ja, genau, keine falschen Fehlermeldungen, die dich dann, also, ne, dass du dann taub wirst da drauf, ja.

00:39:51

Kai Ole Hartwig

ständig, wer weiß wie viele Sicherheitsmeldungen, Sicherheitslücken und Meldungen dazu und wenn du natürlich jetzt dann sagst, okay, ich schaue nur auf das, was bei uns auch tatsächlich läuft, dann weißt du zum einen, was läuft bei dir tatsächlich und zum anderen musst du dann halt auch nur darauf achten und das, was ringsherum passiert, kannst du dann halt außen vor lassen.

00:40:18

Daniel Langemann

Hm.

00:40:18

Daniel Langemann

Hm.

00:40:18

Daniel Langemann

Hier ein Legacy-System ist das ruhig.

00:40:19

Kai Ole Hartwig

Das ist nämlich, finde ich, beim KPIs und beim Alerting nämlich auch wichtig, dass man da die Dinge nimmt und findet und einstellt, die tatsächlich relevant sind.

00:40:30

Kai Ole Hartwig

Wenn du sagst, okay, 10, 500er in der Minute sind völlig okay für uns, weil wir wissen, dass der Service eigentlich nicht stabil ist, aber wir wollen daran arbeiten, aber 10 Stück sind okay, da ist nichts kaputt, das ist quasi unser normales Grundrauschen.

Kubernetes und service-level Monitoring

00:40:49

Daniel Langemann

Das ist die Realität.

00:40:49

Daniel Langemann

Ja.

00:40:49

Kai Ole Hartwig

Das fühlt sich so falsch an, aber das kann ja sein.

00:40:57

Kai Ole Hartwig

Genau, wir wissen ja alle, wie das manchmal so ist.

00:41:00

Kai Ole Hartwig

Und dann hast du aber auf einmal 60, dann macht es ja Sinn, dass du ab einer gewissen Schwelle, die über 10 liegt, trotzdem ein Alerting machst.

00:41:11

Kai Ole Hartwig

Und nicht halt sagst, ja, okay, 500er sind für uns normal.

00:41:14

Kai Ole Hartwig

Sondern dann musst du halt auch sagen, okay, für uns ist ein Grundraufen in der Höhe normal.

00:41:20

Kai Ole Hartwig

ähm, aber wenn es darüber rausgeht, ja, dann, dann brauche ich eine Information.

00:41:20

Daniel Langemann

Eine Veränderung um x Prozent.

00:41:25

Daniel Langemann

Wobei das schwer ist.

00:41:26

Daniel Langemann

Also gerade bei Exceptions und Ausnahmen, wenn das Crown-Jobs sind zum Beispiel, dann ist das ja vorhersehbar, welches Grundrauschen die erzeugen, wenn die alle x Minuten starten.

00:41:37

Daniel Langemann

Bei Nutzern ist das schwerer.

00:41:37

Kai Ole Hartwig

Ja, aber der läuft ja auch auf einem eigenen Pod, da kannst du ja das Erleitung schon wieder entsprechend zuschneiden.

00:41:38

Daniel Langemann

Ja.

00:41:42

Kai Ole Hartwig

Also, ich hoffe, es läuft auf einem scheduled Pod, ähm,

00:41:48

Daniel Langemann

Sie hängt von der Architektur ab, ja.

00:41:51

Daniel Langemann

Aber zum Beispiel, das lockt das trotzdem mit rein in das Dashboard mit allem drum und dran.

00:41:57

Kai Ole Hartwig

Ja, natürlich, aber dann musst du halt entsprechend filtern.

00:42:00

Kai Ole Hartwig

Das gehört ja auch zum Einrichten vom Monitoring, dass man sagt, man richtet es sinnbehaftet ein und sinnvoll ein und sagt jetzt nicht, naja, gut, ich schmeiße jetzt hier alles rein und über alle Services möchte ich nur, naja, wenn man halt gerade, wenn man so problematische Dinge hat, muss man natürlich sagen, okay, ich brauche

00:42:09

Daniel Langemann

Ja.

00:42:29

Kai Ole Hartwig

Jetzt sind wir in der wunderbaren Kubernetes-Welt und können halt sagen, okay, wir haben da sehr unterschiedliche Ebenen, auf die wir draufschauen können.

00:42:38

Kai Ole Hartwig

Meistens muss man ja sagen, okay, der Service ist eigentlich das, wo wir draufschauen wollen.

00:42:43

Daniel Langemann

Ja.

00:42:44

Kai Ole Hartwig

Weil es ist ja auch kritisch, wenn ich jetzt fünf Pods da habe und einer schmeißt aber die ganze Zeit Fehler, okay, dann ist irgendwie die Entscheidung, dieser Pod muss weg und ein neuer muss starten.

00:42:59

Kai Ole Hartwig

aber dann macht es ja trotzdem Sinn, mein Alerting, mein Monitoring auf Service-Ebene zu haben und dann zu erkennen, ah, wir haben einen Pod, der ist irgendwie auf einer schlechten Note gelandet und hat da Probleme, keine Ahnung.

00:43:12

Daniel Langemann

Ja, genau das sind ja Sachen, die du dann aggregieren kannst und sogar adressieren kannst und sagen kannst, guck mal, weiß ich nicht, 500er, die nach einem Deployment oder 500er, die durch die Decke gehen, das ist einfach ein Ding, da muss das Alerting den Entwicklern Bescheid sagen.

00:43:15

Kai Ole Hartwig

Ja.

00:43:28

Daniel Langemann

Ist das aber so Fehlermeldungen, die aus der Infrastruktur kommen?

00:43:31

Daniel Langemann

Also weiß ich nicht.

00:43:33

Daniel Langemann

Andere Sachen davor, andere Loks, die anschlagen, wo

Krisenkommunikation und Eskalation

00:43:36

Daniel Langemann

Sachen.

00:43:36

Daniel Langemann

Da kannst du sagen, guck mal, das ist ja eher was so für Ops oder für diejenigen, die für den Betrieb zuständig sind.

00:43:42

Daniel Langemann

Hast du dann Metriken, die so eher in Richtung Umsatz, Kunden oder, ne, also vielleicht hast du auch irgendwo was drin, was Reklamationen oder solche Sachen betrifft, ne, also zum Beispiel Bewertungen und, und, und, und da verändern sich Sachen, da sind wieder ganz andere, ne, andere Zielgruppe, die da benachrichtigt werden muss.

00:43:58

Kai Ole Hartwig

Ja, und ich bin auch immer ein großer Freund von Kaskaden, also das ist hoch eskaliert automatisch.

00:44:01

Daniel Langemann

Was ich aber...

00:44:09

Daniel Langemann

Immer den Chef in CC, okay.

00:44:09

Daniel Langemann

Okay.

00:44:09

Daniel Langemann

Okay.

00:44:11

Kai Ole Hartwig

Naja, nicht immer den Chef in Sitzig, aber ab einer bestimmten Dauer oder Häufigkeit oder also Schwere des Problems bin ich der Meinung, dass automatisch das durchaus bis Zielevel hoch eskaliert werden muss und kann und soll.

00:44:32

Daniel Langemann

Habe ich bis jetzt noch nicht gehabt, weil für mich war das so, es gibt denen, die Verantwortlichen, die kriegen diese Info und was sie damit machen.

00:44:40

Daniel Langemann

Wenn die die verschweigen, dann hat das hoffentlich einen Grund und die sind fachlich Experten genug, dass da zum Beispiel das nicht gemeldet werden muss.

00:44:51

Daniel Langemann

Wenn du dann natürlich das hast, dass sie, also wenn Leute solche Sachen ignorieren oder nicht ernst nehmen, dann hast du aber ein grundlegendes Problem.

00:45:00

Kai Ole Hartwig

Ich gehe ja immer davon aus, die Leute sind dann schon im Stress, in der Chaosphase der Katastrophe.

00:45:04

Daniel Langemann

Das ist ganz was für die Hochenlage.

00:45:07

Daniel Langemann

Aber, hm.

00:45:08

Kai Ole Hartwig

So, jetzt kommt ja wieder mein Blaulichtmilieu bei mir durch, wo ich sage, die Chaosphase können wir nicht vermeiden, da haben wir auch Kommunikationschaos, wir haben

00:45:19

Kai Ole Hartwig

den Personal- und vielleicht Ressourcenmangel.

00:45:23

Kai Ole Hartwig

Also es gibt einen Mangel und deswegen funktioniert auch Kommunikation nicht.

00:45:29

Kai Ole Hartwig

Und jetzt bricht der Umsatz gerade auf null ein.

00:45:36

Kai Ole Hartwig

Länger als eine halbe Stunde, schon eine Stunde.

00:45:38

Kai Ole Hartwig

Also es gibt echte Probleme.

00:45:39

Kai Ole Hartwig

Genau.

00:45:39

Daniel Langemann

Reales Beispiel.

00:45:40

Daniel Langemann

Also war ja so.

00:45:42

Daniel Langemann

Und was ich jetzt nicht gesagt habe und natürlich unausgesprochen angenommen habe, ist, es gibt unterschiedliche Rollen.

00:45:49

Daniel Langemann

Natürlich kriegt das Team die Info oder im Team verteilt sich die Info.

00:45:53

Daniel Langemann

Und das hat immer dazu geführt, dass ich...

00:45:56

Daniel Langemann

Wir hatten halt so die Abstimmung, wenn sowas passiert, ist Slack zu und aus.

00:46:02

Daniel Langemann

Oder zumindest gemutet und die drei Entwickler, die da im Team sind, sitzen zusammen und lösen das Problem.

00:46:08

Daniel Langemann

Der PO hatte auch die Info und der war der Einzige, der zu den Entwicklern durchgekommen ist und der hat sich um die Kommunikation gekümmert.

00:46:14

Daniel Langemann

Weil natürlich alle Leute sagen, oh, guck mal, unser Shop ist offline, ich helfe den Entwicklern mal, indem ich denen auch nochmal eine Info schicke, wie die anderen 600 Mitarbeiter.

00:46:24

Daniel Langemann

Und jeder will dir helfen.

00:46:26

Daniel Langemann

Also natürlich muss das geklärt sein.

00:46:28

Daniel Langemann

Also müssen diese Rollen klar sein, dass du sagen kannst, guck mal, wenn die Entwickler das mitkriegen oder jemand sagt den Entwicklern Bescheid, dann gehen die in ihre kleine Höhle und konzentrieren sich darauf, den Fehler zu lösen, so schnell wie möglich.

00:46:38

Daniel Langemann

Holen sich Leute dazu, die sie brauchen, um das zu lösen.

00:46:41

Daniel Langemann

Und der Einzige, der dann, also im Team, der die Kommunikation übernimmt, kann Scrum Master sein, kann Product Owner sein, kann Teamleiter sein oder Lead Dev von mir aus, eine Person, dass alle da aufschlagen.

00:46:53

Kai Ole Hartwig

Genau, und die Annahme, die ich mit drin habe, ist, diese Person ist auch ausgelastet und achtet nicht auf die Zeit in dem Stress.

00:46:54

Daniel Langemann

Mhm.

00:47:02

Kai Ole Hartwig

So, und irgendwann wird ja die Situation so, dass sie so kritisch ist, dass es halt

00:47:08

Kai Ole Hartwig

C-Level betrifft und das C-Level informiert sein muss und handlungsfähig werden muss und deswegen wirklich eine Kaskade, natürlich mit entsprechender Zeit und so weiter, also ordentlich ausgearbeitet, nicht einfach, oh, das ist jetzt fünf Minuten offline, jetzt geht die E-Mail an den Chef raus, sondern vernünftige Eskalationsstufen drin sind, aber halt automatisiert, damit diese Information automatisiert weitergetragen wird und nicht verloren geht.

00:47:27

Daniel Langemann

Mhm.

00:47:27

Daniel Langemann

Mhm.

00:47:36

Kai Ole Hartwig

Ja, also ich sage jetzt mal, erst mal es tritt was auf, Junior Dev wird informiert.

00:47:43

Kai Ole Hartwig

So, der bekommt das Ganze in Zeitraum X, sagen wir mal 15 Minuten, nicht gelöst.

00:47:51

Kai Ole Hartwig

Dann geht quasi das weiter und Senior Dev wird informiert.

00:47:57

Kai Ole Hartwig

Der schaut drauf und bekommt es auch in Zeitraum X nicht gelöst.

00:48:02

Daniel Langemann

Kündigung raus, nächster informieren.

00:48:02

Kai Ole Hartwig

Dann

00:48:03

Daniel Langemann

Mhm.

00:48:04

Kai Ole Hartwig

So, und dann geht es halt an PO und so weiter, weißt du?

00:48:07

Kai Ole Hartwig

So diese Kaskade in der Annahme.

00:48:10

Kai Ole Hartwig

Erst immer, okay, das ist vielleicht etwas, was leicht zu lösen ist und dann geht man halt höher, holt mehr Leute dazu, mehr Erfahrung dazu, mehr Verantwortlichkeit und verteilt damit auch die Verantwortlichkeit und nimmt sicher auch selber ein Stück den Druck raus.

00:48:27

Kai Ole Hartwig

Wenn quasi der PO, der Chef, der CTO, CEO, der

00:48:33

Kai Ole Hartwig

informiert

Geschäftskontinuitätsplanung

00:48:34

Kai Ole Hartwig

werden darüber, dann wissen die aber ja auch schon, okay, das läuft jetzt ja schon eine Zeit, die sind da ja schon dran,

00:48:45

Daniel Langemann

Zumindest, dass sie dann kommunizieren können oder weitere Sachen veranlassen können, ja.

00:48:47

Daniel Langemann

Hm.

00:48:48

Kai Ole Hartwig

einfach weitere Sachen veranlassen können und auch selber informiert sind und handlungsfähig sind.

00:48:53

Kai Ole Hartwig

Das ist immer so mein Gedanke in diesen ganzen Dingen.

00:48:58

Kai Ole Hartwig

Das, was nämlich in Krisen nie gut funktioniert, in dieser Chaosphase der Katastrophe, ist nämlich die Kommunikation.

00:49:06

Kai Ole Hartwig

Die Kommunikation bricht immer als erstes zusammen.

00:49:11

Kai Ole Hartwig

Wir wissen aus genug

00:49:13

Daniel Langemann

Aber ohne, dass ich Ahnung davon habe, werfe ich jetzt das Fachwort Triage rein.

00:49:19

Daniel Langemann

Was haben wir noch gar nicht in der Uhrzeit?

00:49:19

Kai Ole Hartwig

Ja.

00:49:20

Daniel Langemann

Also nicht jeder Alarm ist ja gleich schlimm.

00:49:24

Daniel Langemann

Also wenn das Import-Tool kaputt ist und, weiß ich nicht, die neuen Produktdaten nicht reinkommen, ist es nicht jeder, zum Glück.

00:49:29

Kai Ole Hartwig

Ja, nicht jeder stirbt in der Katastrophe, genau.

00:49:32

Daniel Langemann

Ja.

00:49:34

Kai Ole Hartwig

Aber das Leben ist schon ein vorübergehender Zustand.

00:49:41

Kai Ole Hartwig

So.

00:49:42

Daniel Langemann

Oh mein Gott, jetzt werden wir esoterisch, ja?

00:49:43

Daniel Langemann

Ja, ja, ja.

00:49:43

Daniel Langemann

Und sowas lässt du vom Stapel ohne Kaffee.

00:49:45

Kai Ole Hartwig

Das ist nicht esoterisch, das ist harte Realität, Daniel.

00:49:49

Kai Ole Hartwig

Also.

00:49:50

Kai Ole Hartwig

unsere Zeit auf dieser Murmel, auf der wir hier rumfliegen, ist begrenzt.

00:49:55

Kai Ole Hartwig

Zumindest mit dem bewussten Bewusstsein, soweit wir das beurteilen können.

00:50:04

Kai Ole Hartwig

Ja, ich musste ja auf Rum umsteigen.

00:50:08

Kai Ole Hartwig

Nein, aber... Ja, genau.

00:50:11

Daniel Langemann

Du trinkst nicht Kaffee mit Schuss, sondern Schuss ohne Kaffee, ne?

00:50:14

Daniel Langemann

Boah, ja.

00:50:15

Daniel Langemann

Also es wird Zeit.

00:50:16

Daniel Langemann

Also

00:50:16

Kai Ole Hartwig

Wir krock jetzt, Tee mit Rum.

00:50:20

Kai Ole Hartwig

Gorkmus, wie war das?

00:50:24

Kai Ole Hartwig

Tee, Zucker kann Wasser oder ich weiß es nicht mehr.

00:50:27

Kai Ole Hartwig

Also egal, Gorkrezept kann ich jetzt nicht auswendig spontan.

00:50:32

Kai Ole Hartwig

Aber natürlich, ja, Triage von Fehlern und so gehört natürlich auch dazu.

00:50:39

Kai Ole Hartwig

So, da habe ich jetzt aber keine gute Metrik.

00:50:42

Kai Ole Hartwig

Also ich sage immer, in dem Blaulichtmilieu, wo ich unterwegs bin,

00:50:43

Daniel Langemann

Ja genau, und darauf wollte ich hinaus, das kann der Mensch einfach besser.

00:50:47

Daniel Langemann

Dieses Beurteilen und sagen, guck mal, da gehen gerade Sachen, haben wir deployed, wir haben nichts deployed und auf einmal passieren Sachen, dann ist das ja was anderes, als wir haben gerade deployed und überall gehen alle roten Lämpchen an oder so und die Mutterkontrollleuchte leuchtet und alles geht.

00:51:02

Daniel Langemann

Da würden auch die Entwickler ja direkt sagen, komm, wir setzen uns alle zusammen, alle, die daran beteiligt waren, Brainstorming halbe Stunde oder und fixen das.

00:51:11

Kai Ole Hartwig

Ich sage jetzt mal, Abläufe und Algorithmen dazu sind eigentlich ursächlicher Bestandteil des BCM, des Business Continue.

00:51:21

Daniel Langemann

Du wolltest keine Fachwörter heute benutzen.

00:51:21

Kai Ole Hartwig

Hast du nicht gesehen?

00:51:23

Daniel Langemann

Lass das.

00:51:24

Daniel Langemann

Ich passe das BCM.

00:51:24

Daniel Langemann

Okay.

00:51:27

Kai Ole Hartwig

Business Continue Management, also die Planung, wie es sein kann, den Betrieb wieder aufzunehmen.

00:51:37

Kai Ole Hartwig

Also gehen wir mal davon aus,

00:51:39

Kai Ole Hartwig

Wir treffen jetzt völlig in ein neues Thema.

00:51:41

Kai Ole Hartwig

Egal.

00:51:43

Kai Ole Hartwig

Kurz zusammenfassend.

00:51:44

Kai Ole Hartwig

Wir gehen mal davon aus, das Rechenzentrum ist abgefackelt, wo alle deine Daten drin liegen.

00:51:48

Kai Ole Hartwig

Du hast aber, weil du schlau warst und das im BCM geplant hast, ein Offsite-Backup.

00:51:55

Daniel Langemann

Daniel muss auch den Roller und das Backup holen.

00:51:56

Kai Ole Hartwig

Dann steht in deinem BCM auch drin, wie läuft das denn jetzt ab, dass es jetzt wieder losgeht.

00:51:56

Daniel Langemann

Mhm.

00:52:00

Kai Ole Hartwig

Wie läuft das?

00:52:05

Kai Ole Hartwig

Ja, genau, so, also diese Abläufpläne, was passiert wann, dass man das mal geplant hat und vor allem auch durchgespielt hat, das ist jetzt im Kritis-Bereich im Übrigen wesentlich relevanter, aus meiner Sicht, als so jetzt im Geschäftsbetrieb, aber natürlich, auch im normalen Geschäftsbetrieb muss so etwas geplant sein und muss vorhanden sein.

00:52:26

Kai Ole Hartwig

Ich glaube, ich bin mir jetzt nicht zu 100% sicher, aber ich meine, es ist

00:52:31

Kai Ole Hartwig

im Rahmen der ISO 27001 auch Pflichtbestandteil, das WCM.

00:52:37

Daniel Langemann

Okay, also Fachwort noch nicht gehört, aber ja.

00:52:38

Kai Ole Hartwig

IT-Sicherheit,

Abschluss und Ausblick

00:52:41

Daniel Langemann

Vollkommen bei dir.

00:52:43

Kai Ole Hartwig

in den IT-Sicherheitsmanagementsystemen sollte auch immer drin sein, geht es denn jetzt weiter.

00:52:49

Kai Ole Hartwig

Ja, aber

00:52:51

Daniel Langemann

Wer ist alles zu informieren?

00:52:53

Daniel Langemann

Also welche Abteilung, welche Abteilung betrifft das?

00:52:55

Daniel Langemann

Ist ja auch immer so ein Thema, was relevant ist.

00:52:58

Daniel Langemann

Also zum Beispiel Customer Care kannst du, oder Kundensupport kannst du direkt anrufen und sagen, hier, wir wissen, Problem, arbeiten dran.

00:53:04

Kai Ole Hartwig

Ja, was machst du, wenn das Büro abgefackelt ist?

00:53:05

Daniel Langemann

Und

00:53:08

Daniel Langemann

Feierabend.

00:53:10

Kai Ole Hartwig

Ja?

00:53:13

Kai Ole Hartwig

Passt.

00:53:14

Kai Ole Hartwig

Sollten wir das auch machen mit dieser Folge.

00:53:16

Daniel Langemann

Ja.

00:53:17

Daniel Langemann

Müssen wir bei der nächsten weitermachen.

00:53:25

Kai Ole Hartwig

Was für ein Ende.

00:53:26

Kai Ole Hartwig

Gut, das war eine wunderbare Folge.

00:53:29

Kai Ole Hartwig

Secrets not included.

00:53:32

Kai Ole Hartwig

Wir überlegen dann mal, wie unser BCM-Konzept für den Podcast aussieht oder so und freuen uns auf nächste Woche.

00:53:38

Daniel Langemann

Ja.

00:53:39

Kai Ole Hartwig

Macht's gut.

00:53:39

Kai Ole Hartwig

Ciao, ciao.