Datenökosystem @ CARS24 – ein Überblick

May 01 2023
Das Kerndatenteam von CARS24 besteht aus ca. 95 Mitarbeitern und unterstützt Unternehmen in Indien, Australien, dem Nahen Osten und Südostasien, die eng mit Stakeholdern aus den Bereichen Geschäft, Produkt, Marketing und Technologie zusammenarbeiten. Darüber hinaus verfügen wir auch über ca. 25 Datenexperten im Fintech-Bereich von CARS24, einem unabhängigen, von der NBFC lizenzierten Kreditunternehmen.

Das Kerndatenteam von CARS24 besteht aus ca. 95 Mitarbeitern , die Unternehmen in Indien, Australien , dem Nahen Osten und Südostasien unterstützen und eng mit Stakeholdern aus den Bereichen Geschäft, Produkt, Marketing und Technologie zusammenarbeiten. Darüber hinaus verfügen wir auch über ca. 25 Datenexperten im Fintech- Bereich von CARS24, einem unabhängigen, von der NBFC lizenzierten Kreditunternehmen.

Dieser Artikel ist ein Versuch, häufig gestellte Fragen (insbesondere von Freunden/Führungskräften aus der indischen Startup-Community) darüber zu beantworten, wie die Datenfunktion derzeit bei CARS24 strukturiert ist, welche Denkweise dahinter steckt und welche Vor- und Nachteile sie hat.

Haftungsausschluss: Die geteilten Gedanken sind persönlich und spezifisch für den aktuellen Kontext von CARS24, was möglicherweise auch für andere Organisationen gilt und sich möglicherweise auch für CARS24 weiterentwickeln könnte.

Rollen- und Organisationsstruktur des Datenteams

Lassen Sie uns die folgenden Punkte in der gleichen Reihenfolge ansprechen: erwartete Rolle der Datenfunktion in einem Unternehmen; verschiedene Arten, wie das Datenteam organisiert werden könnte; Rolle von Data Engineering und ML Ops; ideale Möglichkeiten, mit anderen Funktionen zusammenzuarbeiten.

Rolle der Datenfunktion

Dies hängt weitgehend von der Datenkenntnis der Organisation ab, von der Reife und Leistungsfähigkeit der Datenfunktion bis hin zum Entscheidungsansatz der Unternehmensleiter.

Basierend auf meinen Erfahrungen und Erkenntnissen erfahren Sie im Folgenden, wie sich die Rolle eines Datenteams in einer Organisation entwickelt.

Grundlegende Dashboards und die Visualisierung von KPIs sind der offensichtliche erste Schritt, gefolgt von der Möglichkeit, tiefer einzutauchen, um benutzerdefinierte Analysen und Erkenntnisse zu erhalten .

Mit zunehmender Reife des Datenökosystems verleiht der stärkere Einsatz von Statistik und Datenwissenschaft dem Unternehmen Prognose- und Vorhersagefähigkeiten . Dies ist auch die Zeit, in der die Back-End-Dateninfrastruktur (Protokollierung, Pipelines, Datenbank/Lager usw.) weiter optimiert und gestärkt wird. Die Datenfunktion entwickelt sich weiter, wenn sie von der bloßen Vorhersage zur Vorgabe der nächsten Schritte übergeht, da sich die Genauigkeit der Modelle verbessert und ihre Auswirkungen auf KPIs klarer werden.

Wenn die DS/ML-Lösungen schließlich nahtlos in das Produktionsökosystem integriert werden, kann die Datenfunktion wirklich eine End-to-End-Problemstellung übernehmen und auch die „Ausführungs“-Komponente innehaben.

Zentralisiert oder dezentral oder hybrid?

Zentralisiert vs. dezentral sind selbsterklärende Begriffe, und Hybrid liegt irgendwo in der Mitte! Es wurde viel über die Vor- und Nachteile zentralisierter vs. dezentraler Teamstrukturen geschrieben, und nach und nach scheint sich jeder mit „ Hybrid “ als der richtigen Antwort zufrieden zu geben – oder wir könnten „einfache“ Antwort sagen, bis wir anfangen, diesen schmalen Grat zu finden das muss für ideale Arbeitsweisen / relative Priorisierung etc. gezeichnet werden

Weithin anerkannte Vorteile einer zentralisierten und dezentralen Organisationsstruktur

Konventionelle Meinung ist, dass jedes technische/Nischen-Know- how , das nicht unbedingt ein tiefes Domänenverständnis erfordert und quer genutzt werden kann, als zentrale horizontale Fähigkeit (C enter of Excellence ) weiterentwickelt werden sollte , z. B. Daten/ML-Technik, produktorientierte DS-Lösungen.

Die CARS24-Datenorganisation arbeitet in einer Hybridstruktur

Im Falle einer Hybridstruktur sollten die dezentralen Module auf die Geschäftsfunktion oder das zentrale Team abgestimmt werden, je nachdem, wo die Hebelwirkung höher ist, d. h. wenn das Analyse-/Insights-Team durch Synergien mit dem zentralen DS/ML-Team mehr Hebelwirkung erhält, sollten sie ausgerichtet werden zentrales Datenteam und umgekehrt.

Wie ist über Data Engineering/Warehousing zu denken?

Datentechnik ist in der Regel mit der technischen Funktion verbunden, es gibt aber auch Beispiele für Datentechnik mit einer umfassenderen Datenfunktion. Ersteres gewährleistet die Nähe zur Datenquelle und zum Technologie-/Produktionssystem, während später eine bessere Ausrichtung auf den Endverbraucher der Daten (d. h. Unternehmen/Produkt) sichergestellt wird Analysten, Datenwissenschaftler usw.).

Bei CARS24 wurde die Datenverarbeitungs- und Lagerpraxis bereits Anfang 2019 vom CTO offiziell eingeführt. Einige dieser Verantwortlichkeiten liegen jetzt bei der Datenfunktion.

  • Es gibt einige technisch ausgerichtete Dateningenieure, die sich um Datentransformationen und Clickstream-Aufnahme im Produktionsökosystem kümmern, während es einige datenorientierte Ingenieure gibt, die für verwaltete/benutzerdefinierte Pipelines, Lageroptimierung, ELT-Verfahren und Datenzugriffskontrolle verantwortlich sind und Back-End-Infrastruktur von Dashboards .

Was ist mit MLOps / Engg los?

Viele Unternehmen erwarten entweder von Datenwissenschaftlern, dass sie Fähigkeiten zur produktionsbereiten Bereitstellung erlernen, ODER erwarten von DevOps, dass sie die Nuancen von ML-Workflows verstehen, was beides relativ unrealistisch ist . Dies ist der Grund, warum sich die Inbetriebnahme der meisten ML-Projekte erheblich verzögert oder, schlimmer noch, überhaupt nicht das Licht der Welt erblickt.

Im Gegensatz zu Softwareentwicklungs-Workflows sind ML-Workflows nicht standardisiert (und entwickeln sich schnell), sie verfügen über Modellobjekte, Datendateien, Modellformate und ihre Kompatibilitätsmatrix mit unterstrichener Infrastruktur. Es besteht auch die Notwendigkeit, die Modellleistung, die Ressourcennutzung sowie die Modell- und Datendrift zu überwachen. Daher hat sich ML Engg/Ops zu einer separaten und sehr wichtigen Kompetenzgruppe entwickelt, die sich über die Bereiche Technologie und Datenwissenschaft erstreckt

Bei CARS24 verfügen wir über eine etwa dreiköpfige ML-Ops-Praxis innerhalb des Kerndatenökosystems, die als horizontales COE fungiert und alle DS-Module dabei unterstützt, effizient mit dem größeren Produktionsökosystem zu interagieren. Dieses Team denkt „engg first“ und hat enge Beziehungen zu DevOps und eine enge Verbindung zur Technologieführung.

Tauchen Sie tiefer in die Datenorganisationsstruktur von CARS24 ein

Als Organisation haben wir uns für eine Hybridstruktur entschieden, in der Data Engg/ML Engg , Marketinganalysen und produktzentrierte Module von DS (z. B. Magneto (Endkäufer-Reco/Sortieralgorithmen), Auctoris (Händler-Reco)) als globale horizontale Kapazität operieren / COE ; während Geschäftsanalysten und geschäftsrelevante Module von DS, z. B. Profecto (Preis-Engine) und Fortem (Betrugs-Engine), dezentral arbeiten und sehr eng mit den jeweiligen Geschäftsfunktionen integriert sind.

Das aktuelle Datenökosystem bei CARS24 wird stark von unserer Philosophie beeinflusst, „ ML für Unternehmen “ einzurichten , wobei das Data-Science-Team direkte und messbare Auswirkungen auf kommerzielle KPIs hat, anstatt isoliert aufzubauen.

Nachfolgend finden Sie einen allgemeinen Überblick darüber, wie das Daten-Ökosystem von CARS24 aussieht, und eine ausführlichere Darstellung der Art und Weise, wie das Unternehmen mit Geschäft, Marketing, Produkten und Technologie für das Geschäft in Indien interagiert. Ein ähnliches Engagement wird auch in anderen Regionen repliziert.

Kern-DS/BI-Ökosystem @ CARS24 – ein allgemeiner Überblick

Wenn wir tiefer eintauchen, sind die Bausteine ​​dieser Struktur „Pods“/natürliche Arbeitsteams, die sich auf eine bestimmte Problemstellung konzentrieren, z. B. den Top-Funnel des Käufers, die Konvertierung des Verkäufers, die Einbindung des Händlers, die Effizienz des Sanierungsbetriebs usw

Ein typischer „idealer“ Pod verfügt über engagierte Leute aus den Bereichen Business, Produkt, Daten und Technik, die dafür verantwortlich sind, die Ausrichtung auf KPIs/Ziele des Pods, relative Prioritäten und Zeitpläne verschiedener Projekte sicherzustellen und ideale Arbeitsweisen innerhalb des Pods festzulegen.

Ein typisches Pod/Natural-Arbeitsteam bei CARS24

Wie es in den meisten Unternehmen üblich ist, stellen Produktmanager sicher, dass engagierte Pod-Techniker und technische Leiter (in der Regel über mehrere Pods verteilt) auf BRD/PRDs, Zeitpläne und Ergebnisse abgestimmt sind.

  • Nicht viel anders als bei der üblichen Zusammenarbeit zwischen „Produkt und Technik“ , haben wir bei CARS24 auch eine Beziehung zwischen „ Analytics Lead und Data Science“ eingerichtet , wenn auch etwas weniger formell. Die meisten der leitenden Analytics-Leiter bei CARS24 verfügen über erste Erfahrungen mit Datenwissenschaft/fortgeschrittenen Statistiken, bevor sie sich entschieden haben, tiefer in die geschäftliche/kommerzielle Seite einzusteigen. Da sie als Schnittstelle zwischen DS und Business fungieren, können wir eine äußerst produktive Win-Win-Lösung für alle schaffen.

Datenwissenschaftler konzentrieren sich auf Problemstellungen und KPIs, die wirklich für das Unternehmen relevant sind, wobei Analysten in der Lage sind, den Datenwissenschaftlern, die „Macher“ sind, „Checker“ zu spielen.

Obwohl alle diese Pods relativ autarke Einheiten sind und „potenziell“ dezentral betrieben werden könnten, gibt es offensichtliche Vorteile, wenn sichergestellt wird, dass Datenexperten modulübergreifend über ein zentrales Ökosystem einschließlich der Datenplattform (Data Warehouse / ML engg) verbunden werden – dies hängt damit zusammen Der im vorherigen Abschnitt besprochene Ansatz der „hybriden Struktur, die in das zentrale Team eingebunden ist“.

Die Abbildung unten zeigt, wie das Datenökosystem in verschiedene Pods eingebunden und dennoch eng mit der Datenplattform verbunden ist, die Daten- und ML-Engg-Funktionen bereitstellt.

Veranschaulichend: Hybridstruktur, eingebunden in das zentrale Team – Datenorganisation @ CARS24

Abschließende Gedanken…

Ich vertraue darauf, dass der obige Artikel einen guten allgemeinen Überblick darüber gibt, wie wir über die Datenorganisation bei CARS24 nachgedacht haben. Auf unserer Reise lernen, verlernen und neu lernen wir immer noch!

Es ist eine sich schnell entwickelnde Welt. Und angesichts des exponentiellen technischen Fortschritts, der auf allen Datenplattformen zu beobachten ist (fortgeschrittene Datenstrukturen, Speicher- und Datenzugriffsmechanismen), wird AutoML/Explainable AI (XAI) immer realer, LLMs treten in Erscheinung und werden die Datenabfrageschnittstellen wahrscheinlich dramatisch verändern Angesichts der kommenden „Infra as Code“-Tools im Bereich ML-Engineering können wir davon ausgehen, dass wir in nicht allzu ferner Zukunft sehr unterschiedliche Arten von Datenorganisationsstrukturen sehen werden. Neue Wege, alte Dinge zu erledigen – schneller/besser/einfacher.

Bis wir jedoch dort ankommen, müssen wir alle unsere eigenen Antworten finden, die für unsere spezifischen Einschränkungen und unseren Kontext funktionieren. Lasst uns weiter bauen!