🚂 The Hypetrain

Ich schätze, viele von euch werden mir zustimmen, wenn ich sage: Daten spielen in der heutigen Geschäftswelt eine immer bedeutendere Rolle. Nahezu jedes Unternehmen will auf den Hypetrain datengetriebene Organisation aufspringen, denn dies wird zunehmend als strategischer Wettbewerbsvorteil wahrgenommen. Die Mathematik dahinter ist trivial: Transparenz durch Daten = Bessere Entscheidungen = mehr Profit. So far, so good.

Nun ist es leider in der Vergangenheit nicht immer so einfach gewesen, diese Utopie der datengetriebenen Organisation tatsächlich Realität werden zu lassen. Zu aufwendig war es, den eigenen Mitarbeitern “ihre” Daten zugänglich zu machen, denn dafür müssen einige wichtige Schritte durchlaufen werden. Als Endanwender stelle ich mir “Zugänglichkeit” in etwa so vor: Die relevanten Daten des Fachbereichs, den ich verantworte, werden mir über ein intuitives Interface, stets aktuell, gut dokumentiert und leicht verständlich zur Verfügung gestellt, so dass ich damit selbstbewusst und sicher Entscheidungen treffen kann. Nur wie lässt sich das umsetzen?

Vielleicht bist du bei deiner Recherche nach diesem Ideal bereits auf den Begriff “Modern Data Stack” (kurz: MDS) aufmerksam geworden. Der MDS ist – wenn man so will – das nächste große Ding in unserer Branche. 🚀

🆕 Das M in MDS

Es gibt tolle Veröffentlichungen dazu, aus welchen Komponenten eine moderne Datenplattform ganz konkret besteht. Wenn ich diese Artikel studiere, denke ich mir aber häufig: “Okay, ganz interessant. Aber welches Problem wird hier eigentlich gelöst?” Ohne zu wissen, wie es vorher war, ist es schwierig zu beurteilen, was heute ist.

Denn wir sind uns einig: Datenplattformen per se gibt es seit Jahrzehnten. Und ich bin mir sicher, dass meine Kollegen Anfang der 90er-Jahre ihre Plattformen auch als “modern” empfunden und wahrscheinlich auch so bezeichnet haben. Wofür steht also das M in MDS inhaltlich? Was bedeutet “modern” im Jahre 2022?

Reisen wir für einen Moment genau 10 Jahre in der Zeit zurück. Damals war das Buzzword Big Data in aller Munde. Nicht mehr nur die dicken Fische aus dem Silicon Valley produzierten immer größere Datenmengen, auch größere Mittelständler suchten nach Möglichkeiten, diese effizienter und kostenoptimierter zu speichern. Denn Storage war damals noch weitaus teurer als heute. Es galt in unserer Branche die Maxime: “Wir speichern alles, was wir in die Finger kriegen – könnte ja irgendwann mal nützlich werden.” Der Erfolg von Dateninitiativen und -teams wurde oftmals daran gemessen, wie viele Daten sie speichern, nicht wie viel sie davon tatsächlich nutzen.

🔴 Rotverschiebung

Die Geburtsstunde des MDS datiert auf den Oktober 2012, als Amazon das erste cloud-native Data Warehouse names Redshift vorstellte – oder auch: Die kambrische Explosion.

Quasi über Nacht demokratisierte Amazon mit Redshift den Einstieg in die “Analytics”-Welt für nahezu jedes Unternehmen und ebnete so den Weg für vorher unvorstellbare Use Cases. Vor allem unvorstellbar teure Use Cases. Big Data war von heute auf morgen kein Problem mehr, galt als gelöste Herausforderung der IT.

Die Basis für diese Innovation liegt in der zugrundeliegenden Technologie – der Massively Parallel Processing-Engine (kurz MPP) –, die im Vergleich zu klassischen Datenbanken, wie wir sie aus ERP- und Shopsystemen kennen, große Datenmengen wesentlich schneller LESEN kann. Denn das ist bei analytischen Anwendungen das entscheidende Kriterium. Und auch wenn es die MPP-Engine schon weit früher gab, war Redshift das Angebot, welches diese Technologie in den damals frühkindlichen Tagen der Cloud als Erstes für den Massenmarkt zugänglich gemacht hat. Vorbei die Zeiten von horrenden, sechsstelligen Anfangsinvestitionen. Ab jetzt für 200 EUR im Monat, pay as you go. Ein echter Paradigmenwechsel.

💥 The Big Bang

Zudem war in der Prä-Cloud-Ära im Vergleich zu heute alles nicht nur ziemlich teuer, sondern auch ziemlich langsam – und langsam nervt, ganz besonders mich. Ich selbst habe nur die letzten Atemzüge dieser Generation wahrgenommen, aber ich beneide die altgedienten Pioniere des On-Premises-Zeitalters nicht. Sie mussten immer darum bemüht sein, die Datensets möglichst klein zu halten, da die Data Warehouses dieser Zeit schlicht zu langsam waren. Und Optimierung, insbesondere für Performance, ist zeitfressend und schafft selten (analytischen) Mehrwert. Zudem waren die Berichte in den BI-Tools wenig interaktiv und schon gar nicht responsiv. So langsam, dass wir heute wahrscheinlich glauben würden, der Report sei kaputt und schnell beim Helpdesk anrufen.

Und dann, vom einem auf den anderen Tag, gehörten all diese Probleme der Vergangenheit an, denn wie mein Kollege Tristan Handy (dbt Labs) es treffend ausdrückt:

10-1000x performance increases tend to change the way that you think about building products.

In Windeseile entstanden neue Tools, welche die Vorteile der schönen neuen Welt heutiger Cloud Data Warehouses ausnutzten. Jahr(zehnt)elange Marktführer wurden über Nacht legacy-Software. Gewissermaßen der Urknall des Modern Data Stack. Denn aus diesem Moment des Chaos entstand ein ganzes Ökosystem verschiedenster Tools, die fortan ganz spezifische Probleme zu lösen versuchten.

🦖 Die Tage der Monolithen sind gezählt

Und für mich persönlich ist dies ein ganz wesentlicher Charakterzug des Modern Data Stack. Vor ihm beherrschten die Enterprise-Dinosaurier den Markt – Microsoft, Oracle, you name it. Es galt in der Industrie das Credo: Am besten alles aus einer Hand, in der Hoffnung, dass der eine Hersteller meiner Datenplattform sicherlich schon weiß, wie man die verschiedenen Prozesse einer solchen Plattform sinnvoll verzahnt.

Dieser Best-Of-Suite-Ansatz führt meist jedoch dazu, dass dieses eine Tool die vielen Herausforderungen der Datenwertschöpfungskette eher so mittelmäßig löst und nicht das eine Problem außerordentlich gut. Auf deinem Smartphone hast du ja wahrscheinlich auch nicht EINE App für alles, oder?

Im MDS haben sich fortan verschiedene Teildisziplinen (eine Übersicht hier) entwickelt. Und in jeder Disziplin gibt es zig Anbieter, die alle miteinander um das beste Produkt für diesen Bereich konkurrieren. Entsprechend ist die Innovationsgeschwindigkeit mit den Oligopolen der Oracle-Ära nicht zu vergleichen. Beinahe täglich stellen sich neue Tools vor, so dass man mittlerweile wirklich die sprichwörtliche Qual der Wahl hat. Die Domäne Data ist aus ihrem Dornröschenschlaf erwacht und der Werkzeugkasten der Data People ist im Vergleich zu damals kaum wiederzuerkennen. Von der einfachen Laub- zur motorisierten V8-Kettensäge.

🔮 (Not so) Bold Statement

Ich suche mir heute für meinen spezifischen Use Case und Geldbeutel das Produkt, das am besten zu mir passt. Ich habe keine langfristigen Softwareverträge an der Backe, sondern ein Abo, das ich monatlich kündigen kann. Sofern eines meiner eingesetzten Tools nicht mehr meinen Anforderungen genügt, suche ich mir einen neuen Partner – ohne exorbitante Migrationsinvestitionen. Ich bezahle außerdem nur für das, was ich wirklich brauche – meine Ausgaben skalieren mit meinem Wachstum und den damit verbundenen Anforderungen an meine Datenplattform. Möchte ich vielleicht einen neuen Service ausprobieren, richte ich mir dort in wenigen Minuten einen Account ein. Aufwendige Installationen durch spezialisierte Experten auf teurer Hardware, die ich erst noch beschaffen muss? Vergangenheit.

Wir fassen diese ganzen Vorteile gerne auch unter einem Begriff zusammen: Modularität.

Ohne allzu sehr pathetisch zu werden: Der Modern Data Stack demokratisiert den Zugang zur Datenanalyse. Jedes Unternehmen – wenn es denn ernsthaft will – kann heute dateninformierte Entscheidungen treffen. Die Hürden sind so niedrig wie nie.

Wenn du mehr darüber wissen willst, liest du hier über die drei wesentlichen Eigenschaften des Modern Data Stack.