🚂 The Hypetrain

Ich schÀtze, viele von euch werden mir zustimmen, wenn ich sage: Daten spielen in der heutigen GeschÀftswelt eine immer bedeutendere Rolle. Nahezu jedes Unternehmen will auf den Hypetrain datengetriebene Organisation aufspringen, denn dies wird zunehmend als strategischer Wettbewerbsvorteil wahrgenommen. Die Mathematik dahinter ist trivial: Transparenz durch Daten = Bessere Entscheidungen = mehr Profit. So far, so good.

Nun ist es leider in der Vergangenheit nicht immer so einfach gewesen, diese Utopie der datengetriebenen Organisation tatsĂ€chlich RealitĂ€t werden zu lassen. Zu aufwendig war es, den eigenen Mitarbeitern “ihre” Daten zugĂ€nglich zu machen, denn dafĂŒr mĂŒssen einige wichtige Schritte durchlaufen werden. Als Endanwender stelle ich mir “ZugĂ€nglichkeit” in etwa so vor: Die relevanten Daten des Fachbereichs, den ich verantworte, werden mir ĂŒber ein intuitives Interface, stets aktuell, gut dokumentiert und leicht verstĂ€ndlich zur VerfĂŒgung gestellt, so dass ich damit selbstbewusst und sicher Entscheidungen treffen kann. Nur wie lĂ€sst sich das umsetzen?

Vielleicht bist du bei deiner Recherche nach diesem Ideal bereits auf den Begriff “Modern Data Stack” (kurz: MDS) aufmerksam geworden. Der MDS ist – wenn man so will – das nĂ€chste große Ding in unserer Branche. 🚀

🆕 Das M in MDS

Es gibt tolle Veröffentlichungen dazu, aus welchen Komponenten eine moderne Datenplattform ganz konkret besteht. Wenn ich diese Artikel studiere, denke ich mir aber hĂ€ufig: “Okay, ganz interessant. Aber welches Problem wird hier eigentlich gelöst?” Ohne zu wissen, wie es vorher war, ist es schwierig zu beurteilen, was heute ist.

Denn wir sind uns einig: Datenplattformen per se gibt es seit Jahrzehnten. Und ich bin mir sicher, dass meine Kollegen Anfang der 90er-Jahre ihre Plattformen auch als “modern” empfunden und wahrscheinlich auch so bezeichnet haben. WofĂŒr steht also das M in MDS inhaltlich? Was bedeutet “modern” im Jahre 2022?

Reisen wir fĂŒr einen Moment genau 10 Jahre in der Zeit zurĂŒck. Damals war das Buzzword Big Data in aller Munde. Nicht mehr nur die dicken Fische aus dem Silicon Valley produzierten immer grĂ¶ĂŸere Datenmengen, auch grĂ¶ĂŸere MittelstĂ€ndler suchten nach Möglichkeiten, diese effizienter und kostenoptimierter zu speichern. Denn Storage war damals noch weitaus teurer als heute. Es galt in unserer Branche die Maxime: “Wir speichern alles, was wir in die Finger kriegen – könnte ja irgendwann mal nĂŒtzlich werden.” Der Erfolg von Dateninitiativen und -teams wurde oftmals daran gemessen, wie viele Daten sie speichern, nicht wie viel sie davon tatsĂ€chlich nutzen.

🔮 Rotverschiebung

Die Geburtsstunde des MDS datiert auf den Oktober 2012, als Amazon das erste cloud-native Data Warehouse names Redshift vorstellte – oder auch: Die kambrische Explosion.

Quasi ĂŒber Nacht demokratisierte Amazon mit Redshift den Einstieg in die “Analytics”-Welt fĂŒr nahezu jedes Unternehmen und ebnete so den Weg fĂŒr vorher unvorstellbare Use Cases. Vor allem unvorstellbar teure Use Cases. Big Data war von heute auf morgen kein Problem mehr, galt als gelöste Herausforderung der IT.

Die Basis fĂŒr diese Innovation liegt in der zugrundeliegenden Technologie – der Massively Parallel Processing-Engine (kurz MPP) –, die im Vergleich zu klassischen Datenbanken, wie wir sie aus ERP- und Shopsystemen kennen, große Datenmengen wesentlich schneller LESEN kann. Denn das ist bei analytischen Anwendungen das entscheidende Kriterium. Und auch wenn es die MPP-Engine schon weit frĂŒher gab, war Redshift das Angebot, welches diese Technologie in den damals frĂŒhkindlichen Tagen der Cloud als Erstes fĂŒr den Massenmarkt zugĂ€nglich gemacht hat. Vorbei die Zeiten von horrenden, sechsstelligen Anfangsinvestitionen. Ab jetzt fĂŒr 200 EUR im Monat, pay as you go. Ein echter Paradigmenwechsel.

đŸ’„ The Big Bang

Zudem war in der PrĂ€-Cloud-Ära im Vergleich zu heute alles nicht nur ziemlich teuer, sondern auch ziemlich langsam – und langsam nervt, ganz besonders mich. Ich selbst habe nur die letzten AtemzĂŒge dieser Generation wahrgenommen, aber ich beneide die altgedienten Pioniere des On-Premises-Zeitalters nicht. Sie mussten immer darum bemĂŒht sein, die Datensets möglichst klein zu halten, da die Data Warehouses dieser Zeit schlicht zu langsam waren. Und Optimierung, insbesondere fĂŒr Performance, ist zeitfressend und schafft selten (analytischen) Mehrwert. Zudem waren die Berichte in den BI-Tools wenig interaktiv und schon gar nicht responsiv. So langsam, dass wir heute wahrscheinlich glauben wĂŒrden, der Report sei kaputt und schnell beim Helpdesk anrufen.

Und dann, vom einem auf den anderen Tag, gehörten all diese Probleme der Vergangenheit an, denn wie mein Kollege Tristan Handy (dbt Labs) es treffend ausdrĂŒckt:

10-1000x performance increases tend to change the way that you think about building products.

In Windeseile entstanden neue Tools, welche die Vorteile der schönen neuen Welt heutiger Cloud Data Warehouses ausnutzten. Jahr(zehnt)elange MarktfĂŒhrer wurden ĂŒber Nacht legacy-Software. Gewissermaßen der Urknall des Modern Data Stack. Denn aus diesem Moment des Chaos entstand ein ganzes Ökosystem verschiedenster Tools, die fortan ganz spezifische Probleme zu lösen versuchten.

🩖 Die Tage der Monolithen sind gezĂ€hlt

Und fĂŒr mich persönlich ist dies ein ganz wesentlicher Charakterzug des Modern Data Stack. Vor ihm beherrschten die Enterprise-Dinosaurier den Markt – Microsoft, Oracle, you name it. Es galt in der Industrie das Credo: Am besten alles aus einer Hand, in der Hoffnung, dass der eine Hersteller meiner Datenplattform sicherlich schon weiß, wie man die verschiedenen Prozesse einer solchen Plattform sinnvoll verzahnt.

Dieser Best-Of-Suite-Ansatz fĂŒhrt meist jedoch dazu, dass dieses eine Tool die vielen Herausforderungen der Datenwertschöpfungskette eher so mittelmĂ€ĂŸig löst und nicht das eine Problem außerordentlich gut. Auf deinem Smartphone hast du ja wahrscheinlich auch nicht EINE App fĂŒr alles, oder?

Im MDS haben sich fortan verschiedene Teildisziplinen (eine Übersicht hier) entwickelt. Und in jeder Disziplin gibt es zig Anbieter, die alle miteinander um das beste Produkt fĂŒr diesen Bereich konkurrieren. Entsprechend ist die Innovationsgeschwindigkeit mit den Oligopolen der Oracle-Ära nicht zu vergleichen. Beinahe tĂ€glich stellen sich neue Tools vor, so dass man mittlerweile wirklich die sprichwörtliche Qual der Wahl hat. Die DomĂ€ne Data ist aus ihrem Dornröschenschlaf erwacht und der Werkzeugkasten der Data People ist im Vergleich zu damals kaum wiederzuerkennen. Von der einfachen Laub- zur motorisierten V8-KettensĂ€ge.

🔼 (Not so) Bold Statement

Ich suche mir heute fĂŒr meinen spezifischen Use Case und Geldbeutel das Produkt, das am besten zu mir passt. Ich habe keine langfristigen SoftwarevertrĂ€ge an der Backe, sondern ein Abo, das ich monatlich kĂŒndigen kann. Sofern eines meiner eingesetzten Tools nicht mehr meinen Anforderungen genĂŒgt, suche ich mir einen neuen Partner – ohne exorbitante Migrationsinvestitionen. Ich bezahle außerdem nur fĂŒr das, was ich wirklich brauche – meine Ausgaben skalieren mit meinem Wachstum und den damit verbundenen Anforderungen an meine Datenplattform. Möchte ich vielleicht einen neuen Service ausprobieren, richte ich mir dort in wenigen Minuten einen Account ein. Aufwendige Installationen durch spezialisierte Experten auf teurer Hardware, die ich erst noch beschaffen muss? Vergangenheit.

Wir fassen diese ganzen Vorteile gerne auch unter einem Begriff zusammen: ModularitÀt.

Ohne allzu sehr pathetisch zu werden: Der Modern Data Stack demokratisiert den Zugang zur Datenanalyse. Jedes Unternehmen – wenn es denn ernsthaft will – kann heute dateninformierte Entscheidungen treffen. Die HĂŒrden sind so niedrig wie nie.

Wenn du mehr darĂŒber wissen willst, liest du hier ĂŒber die drei wesentlichen Eigenschaften des Modern Data Stack.