Data Infrastructure

Die drei Eigenschaften des Modern Data Stack 💡

Jan-Niklas Mühlenbrock
Mai 16, 2022
11:56 a.m.

Data Infrastructure

Du bist also auf der Suche nach einer modernen Datenplattform, richtig? Wahrscheinlich bist du nicht durch Google auf diesen Artikel aufmerksam geworden. Denn falls du etwa “modern data platform” gesucht hast, wirst du ziemlich sicher direkt mit Werbung zu dem Thema bombardiert worden sein. Zahllose Anbieter versprechen darin, dass sie die einzig wahre Datenplattform sind, die all deine Probleme löst. Nicht wirklich hilfreich, oder?

Was ist denn nun eigentlich eine moderne Datenplattform und wie sieht diese im Jahr 2022 idealerweise aus?

🚨 Data driven – Your Buzzword as a Service

Die kurze Antwort: Eine moderne Datenplattform ist eine Sammlung von Werkzeugen (tools) und Fähigkeiten, die es deinem Unternehmen bestenfalls ermöglicht, den Goldstandard zu erreichen: Eine fundamental datengetriebene Organisation. “Datengetrieben”, noch so ein Buzzword.

Im Grunde geht es schlicht um die Analyse der Daten, die dein Business ständig produziert – vom Sales bis in die Supply Chain. Das Ziel ist dabei natürlich, die Effizienz der Prozesse zu verbessern – denn mal ehrlich, welcher CEO will das nicht? Manche Key Player, also wirkliche data driven organizations, schaffen es manchmal gar, ganz neue Potenziale aufzudecken und so ihr bisheriges Geschäftsmodell weiterzuentwickeln. Die About Yous, Hello Freshs und Zalandos unserer Zeit.

⏯ Aber von vorn…

Vielleicht bist du bei deiner Recherche bereits auf den Begriff “Modern Data Stack” (kurz: MDS) aufmerksam geworden. Der MDS ist – wenn man so will – das nächste große Ding in der Data-Branche. Lass‘ uns an dieser Stelle fürs Erste die Begrifflichkeiten “moderne Datenplattform” und “Modern Data Stack” synonym verwenden, denn Datenplattformen gibt es seit Jahrzehnten – der MDS ist letztlich nur die aktuelle Ausbaustufe. Um zu verstehen, was den MDS so revolutionär macht, bedarf es ein wenig Hintergrundwissen, welches du hinter diesem Link findest.

🎯 Was macht den Modern Data Stack aus?

Ein klassisches Datenprojekt besteht zumeist aus mehr oder weniger vier Prozessschritten. Zunächst werden die (Roh-)Daten etwa aus dem eigenen Shop oder dem ERP-System extrahiert, um diese dann unmittelbar so zu transformieren – also etwa bereinigen, erweitern oder filtern –, dass aus diesen Rohdaten verwertbare Informationen werden. Abschließend sind diese dann in eine Datenbank zu laden, die für die Verarbeitung großer Datenmengen optimiert ist. Oftmals werden basierend auf diesen Daten dann hübsche Charts erstellt – wir nennen das ETL-Prozess plus Visualisierung. Das ist das grobe Handwerk, welches eine Datenplattform schon immer meistern musste – damals wie heute.

Wie unterscheidet sich dies nun von einer “modernen” Plattform? Meiner persönlichen Ansicht nach definiert sich modern in diesem Zusammenhang durch drei Charakteristiken.

🐥 Lightweight

Glücklicherweise haben wir das Zeitalter der schrecklichen Hadoop-Dynastie überwunden. Ohne allzu technisch werden zu wollen, sei hier lediglich erwähnt, dass Datenplattformen bis Mitte der 2010er-Jahre noch äußerst komplex in ihrer Administration und Wartung waren. Meist hochspezialisierte Experten haben diese Systeme eingerichtet, für Otto Normal war deren Nutzung pure Zauberei. Nur werden geschäftsstrategische Entscheidungen (noch) eher selten aus den IT-Abteilungen heraus getroffen, sondern vorwiegend im Marketing, Einkauf oder Vertrieb. Die Analysten und Entscheider dieser Fachbereiche sind also bestenfalls die Endanwender dieser Systeme. #DataPowerToThePeople

Und Endanwender haben meist wenig Interesse daran, wie das alles unter der Haube funktioniert. Schemaevolution, Ressourcenprovisionierung oder Datenbankmanagement? Interessiert sie nicht. Dies war damals auch bekannt und einige Hersteller versuchten, das Problem durch sehr einfache, dafür aber zu starre Oberflächen für die Anwender zu lösen. Die analytische Flexibilität ging durch den (zu) starken Fokus auf Usability verloren. Kurzum: Es fehlte der richtige Abstraktionsgrad für den Business-User.

Moderne Tools wie z.B. Fivetran lösen dieses Problem heute mit Bravour. Selbst Anwender ohne spezifischen Data-Background können mithilfe einer intuitiven Oberfläche und wenigen Mausklicks Daten aus verschiedenen Datenquellen – sei es CRM-System oder Facebook Ads – extrahieren, wofür vor wenigen Jahren Data Engineers noch tausende Zeilen Code schreiben mussten. Gleichzeitig bist du aber kaum darin beschränkt, was du tun kannst. Denn der Funktionsumfang dieser Tools ist außerordentlich und lässt eigentlich keine Wünsche übrig – selbst für Profis. Und als Software-as-a-Service brauche ich letztlich nur eine Kreditkarte, um loslegen zu können: Aufwendige Installationen und Konfigurationen sind damit obsolet.

🔧 Open & modular

Eines ist aus der Hadoop-Zeit jedoch geblieben: Viele Tools innerhalb des MDS sind im Kern zu weiten Teilen quelloffen. Das heißt, dass du die Software auf deine eigenen Bedürfnisse anpassen und erweitern kannst, ohne zwangsläufig auf die Gunst eines Anbieters angewiesen zu sein und so dein Tempo hochhalten kannst. Was nichts kostet, ist auch nichts? Auf keinen Fall! Es zeichnet sich mehr und mehr ab, dass sich diese meist im Kern kostenlosen Tools darüber finanzieren, dass sie ihr Angebot als managed service anbieten. So muss man Tools nicht auf eigener (Cloud-)Hardware installieren, sondern einzig einen neuen Account anlegen – und schon geht’s los. Das ist, was wir lightweight nennen.

Es gibt ein Charateristikum, das ich am Modern Data Stack tatsächlich über alle Maßen schätze – sein modularer Aufbau. Kein Projekt ist wie jedes andere – und somit sollte auch nicht jede Datenplattform identisch sein. Eine solche Plattform muss sich in das Unternehmen integrieren, nicht anders herum.

Vorsicht, Meinung ⚠️: Ich bin kein großer Freund dieser “All-in-One”-Lösungen. Plattformen, die diesen Ansatz verfolgen, können meist zwar viele einzelne Schritte des Analyseprozesses – also z.B. Extraktion von Daten oder die Visualisierung dieser – “ganz okay” abbilden (best-of-suite), lösen aber keine dieser technisch doch sehr unterschiedlichen Herausforderungen außerordentlich gut (best-of-breed). Wäre es nicht besser, wenn du einfach das BESTE Tool für deinen Use Case wählen könntest. Oder zumindest das, was am ehesten zu deinem Geldbeutel passt?

Verfechter dieses Ansatzes argumentieren oft mit Integrationsvorteilen, denn logisch: Alles aus einer Hand kann natürlich auch Vorteile bieten, denn einzelne Tools muss man zunächst miteinander verzahnen – es ist “einfach”. Allerdings wird nicht nur diese Verzahnung immer einfacher, auch sehe ich persönlich weitaus mehr funktionelle Nachteile. Ich habe halt auch nicht DIE EINE App für alles auf meinem Smartphone, sondern ein paar Spezial-Apps – für unterschiedlichen Anwendungszwecke.📱

Beinahe alle mir bekannten Data Teams, die zu Beginn auf eine solche All-In-One-Lösung setzten und in ihrem Business tatsächlich erfolgreich sind, wollen irgendwann einfach “mehr” – wollen die besten Tools für den spezifischen Use Case. Das führt dazu, dass diese Plattformen quasi “by design” ständig ihre besten Kunden verlieren – wir nennen es das Dating-App-Problem.

👩‍💻 Everyone is an engineer

Bis vor kurzem waren Daten häufig „Eigentum“ der IT-Abteilungen – und wurden auch so von diesen behandelt. Die Fachbereiche nutzten die Daten, um Entscheidungen zu treffen. Aber sie mussten immer den Weg über die IT gehen, um an die Daten zu gelangen. So entsteht ganz sicher keine datengetriebene Organisation.

Zugegeben hatte dies auch oftmals seine Berechtigung. Zwar können heute viele Laien Daten irgendwie von A nach B bringen – aber schaffen sie das auch sicher, getestet, dokumentiert und automatisiert? Produktionsreife Datenpipelines zu entwickeln, die mitunter für kritische Entscheidungen genutzt werden, ist nicht immer trivial. Entsprechend haben sich in den Unternehmen häufig spezialisierte “Data Teams” herausgebildet, bestehend zumeist aus Analysts und Engineers.

In diesem Teams gab es jedoch meist ein Problem: Analysten werden danach beurteilt, wie viele (hoffentlich) wertvolle Erkenntnisse sie generieren. Sie diskutieren die analytischen Wünsche und Bedürfnisse der Fachabteilungen und stellen ihnen diese Insights wiederum zur Verfügung. Obwohl diese Kollegen jedoch “nah am Kunden” sind, konnten sie diese Mehrwerte in der Regel nicht ohne Zutun eines Data Engineers liefern. Traditionellen Datenplattformen waren technisch einfach zu komplex in der Anwendung, so dass der Analyst darauf angewiesen war, dass eine Engineer die Daten aufbereitet und zur Verfügung stellt.

Dieser Workflow ist suboptimal, denn er verlangt ständige Kommunikation zwischen Analyst und Engineer – und wo Kommunikation ist, da entstehen Fehler. Modern – und darum geht es ja schließlich hier – wäre es, wenn Analysten autark an der Datenaufbereitung für ein Dashboard arbeiten könnten. Eben hier setzen neue Werkzeuge wie etwa dbt an, die genau dies ermöglichen: Der MDS besinnt sich zurück auf die lingua franca der Datenwelt – SQL (oder in Lautschrift: ˈsiːkwəl). Diese “Sprache” kennt jeder anständige Analyst aus dem Effeff und dbt ermöglicht es, diese schon vorhandenen Skills zu hebeln um dem Analysten die Freiheiten zu bieten, die er braucht, um aus seinen Daten echte Mehrwerte zu generieren.

✅ Fazit

That’s it. Diese drei Merkmale beschreiben aus meiner Sicht der Dinge die Vorzüge des Modern Data Stack. Aber: Datenplattformen bleiben Selbstzweck, sofern sie keine Informationen zu Tage fördern, die dein Business für bessere Entscheidungen benötigt. Der Modern Data Stack an sich liefert dir keine Insights, aber verringert die Zeit, die du dafür brauchst. Indem er einfach in Aufbau und Anwendung ist (lightweight), sich flexibel auf deinen Use Case anpasst (modular) und deinen Spezis im Datenteam mehr Freiheiten bietet.

Wer würde das nicht wollen? 😳

Du hast eine Frage?

Torben ist unser Experte für die Konzeption von nachhaltigen Datenstrategien. Als CEO von siːkwəl und ehemaliger Chief Strategic Officer eines erfolgreichen E-Commerce-Unternehmens beantwortet er gerne deine Fragen, wie man konkrete Use Cases identifiziert und es schafft, dass Datenlösungen echten Business Impact haben.

Data Infrastructure

Die drei Eigenschaften des Modern Data Stack 💡