Paradim vorstellen

Dec 01 2022

Einführung Heute lüften wir den Vorhang und stellen Paradime vor, das Betriebssystem für Analytik, das wir in den letzten 2 Jahren heimlich entwickelt haben. Der Aufbau eines Startups im Geheimen ist schwierig.

Einführung

Heute lüften wir den Vorhang und stellen Paradime vor , das Betriebssystem für Analysen, das wir in den letzten 2 Jahren heimlich entwickelt haben.

Der Aufbau eines Startups im Geheimen ist schwierig. Es ist schwieriger, als Sie sich vorstellen können. Die Einstellung ist schwierig, die Suche nach Kunden ist schwierig. Es ist schwierig, mit Menschen über Ihr Produkt zu sprechen. Aber es hilft, ein Produkt ohne Ablenkungen zusammen mit unseren Designpartnern zu entwickeln und zu iterieren, um das Angebot zu untermauern. Das haben wir uns also vorgenommen.

Im modernen Daten-Stack hat die Verbreitung neuer Punktlösungen in den letzten Jahren zu einem Tool-Chaos geführt. Es gibt so viele Tools da draußen, dass es unmöglich ist, sie alle im Auge zu behalten. Datenführer verbringen mehr Zeit mit dem Versuch, ihre Tools, Kosten und Anbieter zu verwalten, als sie sollten. Sie haben es satt, mit der Beschaffung hin und her zu fahren. Sie haben es auch satt, sich mit einer Datenflut über mehrere Anbieter hinweg auseinanderzusetzen, was das Risiko von Datenschutzverletzungen erhöht.

Für den Analytics Engineer hat das Tool-Chaos zu kognitiver Überlastung und Produktivitätsverlust geführt. Das Leben ist härter geworden als je zuvor.

Wie Benn in seinem Beitrag Das Pulverfass des modernen Datenstapels zusammenfasste :

Der größte bevorstehende Kampf wird jedoch in einem anderen Bereich stattfinden: dem Gehirn – oder dem Betriebssystem

Bei Paradime bauen wir das Betriebssystem für Analysen .

Hintergrund

Damals, 2018–19, baute mein Team bei Octopus den gesamten Datenstapel von Grund auf neu auf. Wir haben einen spröden Legacy-Stack auseinandergerissen, der aus SSIS, maßgeschneidertem Ingestion-Code, geschrieben in .NET, SQL Server, Qlik usw., besteht.

Die endgültige Lösung, die wir nach 6 Monaten zermürbender Arbeit gefunden haben, sah in etwa so aus:

Stitch , Fivetran und Segment für die Datenaufnahme
dbt-Kern, der zur Transformation im Luftstrom läuft
Sucher für Visualisierung

Der Datenstapel mit nur den Werkzeugen

Als wir die Personen-/Teamebene über der Werkzeugarchitektur hinzufügten, sahen wir Folgendes:

Datenflüsse hielten die Tools eng gekoppelt
Doch die Tools fragmentierten die Personen-/Teamebene
Und Slack war der einzige lose verbindende Klebstoff für die menschliche Kommunikation

Der Datenstapel mit den darüber eingeblendeten Personen und Teams

Jeder Datenanalyst würde die meiste Zeit seines Tages damit verbringen, zwischen Low-Code-/Some-Code-/Open-Source-/kommerziellen Apps hin- und herzuspringen, Brände zu bekämpfen und in Datenanfragen zu ertrinken, obwohl er eigentlich nur ROI für das Unternehmen generieren sollte.

Eine durchschnittliche Organisation der Serie C+ hätte 70 Mitarbeiter in Geschäftsfunktionen pro Datenanalyst, was bedeutet, dass diese 70 Mitarbeiter an jedem beliebigen Tag durchdrehen würden, dass sie keine Antworten auf ihre Fragen oder Wünsche bekommen und der arme Analyst in seine schreien würde Kopf, dass er wertvolle Einblicke gewinnen wollte, um nicht den ganzen Tag auf Slack zu reagieren. Diese Sackgasse haben wir aus erster Hand bei Octopus gesehen, dann bei Guardian, dann bei Revolut, Hubspot, Carta, und die Liste geht buchstäblich weiter.

Wir haben immer wieder von Datenanalysten und Analyseingenieuren gehört, dass dbt sie zwar aus der SQL-Hölle befreit hat, die Explosion von Tools sie jedoch zurück ins Höllenfeuer getrieben hat.

Auf der anderen Seite haben wir gesehen, dass Geschäftsfunktionen nach Daten hungern und datengesteuerte Geschäftsentscheidungen treffen, die exponentiell zunehmen. Slack ohne Datenkontext war für das datengesteuerte Unternehmen nicht mehr zweckdienlich.

Die wesentliche Gesprächsebene von Mensch zu Mensch rund um Daten war klobig, zeitaufwändig und ohne Kontext.

Wir haben uns entschieden, das Problem der Produktivität und Zusammenarbeit in Analytics-Workflows durch Paradime anzugehen.

Wir haben erkannt, dass die neue Welt von dbt + der moderne Datenstapel eine neue Kategorie von Tools benötigt, mit denen man arbeiten kann, damit die Menschen schneller, intelligenter und viel weniger gestresst arbeiten können.

Was bauen wir?

Die Data Analytics-Disziplin hat sich in den letzten Jahren massiv weiterentwickelt. Es gibt eine Bewegung, Software-Engineering-Prinzipien in die Analytik einzubringen. Analytics als Disziplin unterscheidet sich von Software Engineering. Es gibt Codekontext, Datenkontext und Personenkontext. Als Analysten sind wir jedoch mit den Tools von Softwareentwicklern konfrontiert.

Wir ändern diesen Status quo, indem wir Folgendes auf den Markt bringen:

Ein Analytics-Betriebssystem, das Menschen die Kontrolle über ihre Daten gibt und gleichzeitig durch effiziente Workflows einen nichtlinearen Wertsprung schafft.
Verbinden von Daten, Analysen und Geschäftsfunktionen in einem einzigen kollaborativen Workflow

Es ist, als hätten Sie wirklich leistungsstarke Prozessoren auf dem Motherboard, während das Bussystem zwischen ihnen im Durchsatz begrenzt ist.

Die Blaupause moderner Datenintelligenz

Paradime wurde entwickelt, um diese Analyse-Workflows zu verbessern, die heute in den meisten Organisationen entweder nicht vorhanden sind oder nur in Unternehmen mit erheblichen Ressourcen zum Erstellen interner Tools vorhanden sind.

Zu diesem Zweck kündigen wir heute 5 Komponenten dieses Workflows an, wie unten erläutert.

1. Onboarding

Abseits der Einrichtung und Verwaltung von dbt-Arbeitsbereichen auf einzelnen Laptops können Sie in Paradime Analysten in weniger als 3 Minuten einbinden, sobald das Konto vom Administrator eingerichtet wurde. Die Einrichtung des Administratorkontos dauert weniger als 30 Minuten und erfordert keine technische Unterstützung. Es fallen keine 3-monatigen Implementierungs- und Professional Services-Kosten an.

Wir unterstützen die Verbindung zum dbt-Repository auf Github , BitBucket und Gitlab . Wir unterstützen die Verbindung zu Redshift , BigQuery , Snowflake und Firebolt und mehr.

2. Code-IDE

Die Code IDE ist das Kronjuwel des Paradime-Erlebnisses.

Die Paradime IDE bringt erstklassige Desktop-IDE-Erfahrung für Analysen in die Cloud. Es ist schnell, leistungsfähig und hat die breiteste Abdeckung an Funktionen. Es wurde speziell für Analyse-Workflows entwickelt, im Vergleich zu Allzweck-Cloud-IDEs wie Gitpod , AWS Cloud9 , Stackblitz , die eher für die Softwareentwicklung geeignet sind.

Es verfügt über die gesamte Ergonomie, die Entwickler von einer Desktop-IDE erwarten, aber einige der bemerkenswerten Funktionen umfassen:

Alles, was Sie in VSCode haben – Look and Feel, Tastaturkürzel, Dateisuche, damit Sie keine neue IDE von Grund auf lernen müssen.
Ein natives Terminal zum Ausführen eines beliebigen CLI-Befehls, einschließlich Git, Python und SqlFluff
dbt-Hauptbenutzer können auch ihre eigenen Python-Pakete installieren.
Vollständige UI-basierte Git-Ops-Unterstützung für Anfänger und Fortgeschrittene
Und was am wichtigsten ist, Echtzeit-Inline-Ansicht von Herkunft, Dokumenten, Datenvorschau für jedes dbt-Modell – ohne einen dbt-Befehl auszuführen oder manifest.json zu generieren

3. Graphische Abstammung

Das Problem, das wir hier lösen wollten, war:

Analysten können nicht Stunden oder sogar Minuten warten, um eine aktualisierte Herkunft zu sehen, wenn sie neue Modelle erstellen oder bestehende umgestalten. Sie brauchen eine Echtzeitansicht.
Analysten benötigen in ihrer täglichen Arbeit ein ganzheitliches Verständnis der Herkunft sowohl in der dbt-Schicht (bereits in der dbt-cloud) als auch in der BI-Schicht.

die Abstammung überspannt dbt, Looker und Tableau

Für Looker stellen wir die Herkunft über Views, Explores, Looks, Dashboards und Schedules bereit, sodass Sie eine End-to-End-Ansicht Ihrer dbt+Looker-Herkunft erhalten. In ähnlicher Weise können wir für Tableau Datenquellen, Arbeitsblätter und Dashboards verknüpfen.

Teams bewegen sich über dbt exposures, die schwer zu warten sind und keine Sichtbarkeit der Komponenten der BI-Schicht zwischen dbt-Tabellen und BI-Dashboards bieten.

4. Schraubenpläne

Das Problem, das wir hier lösen wollten, war:

Analytics-Benutzer finden Airflow / Dagster / Prefect schwierig
Datenplattformteams mögen es nicht, wenn Menschen Produktionsabläufe in der dbt-cloud-Benutzeroberfläche ohne Rückverfolgbarkeit ändern.

git-verfolgte Schraubenpläne, die von überall aus ausgeführt werden können

Wir haben auch APIs, um Ihre dbt-Zeitpläne von Airflow, Dagster oder Prefect auszulösen und Benachrichtigungen zu erhalten, wenn sie abgeschlossen sind. Die API gibt Plattformteams mehr Kontrolle, um Abhängigkeiten vor- und nachgelagert von dbt-Zeitplänen zu verwalten.

Und habe ich Ihnen schon gesagt – wir haben auch einen Ein-Klick-Importer für alle Ihre dbt-Jobs von der dbt-Cloud zu Paradime, sodass sich die Migration nicht wie ein verrücktes Abenteuer anfühlt.

5. SQL abfragen

Das Erstellen eines dbt-Modells ist meistens der letzte Schritt im Modellierungsprozess. Analysten verbringen viel Zeit damit, Daten im Warehouse zu untersuchen und mit rohem und kompiliertem SQL vorhandener Modelle herumzuhantieren, um ihre tägliche Arbeit auszuführen. Es gibt zahlreiche Hin- und Herbewegungen zwischen IDE und SQL-Editor, Kopieren und Einfügen, Bearbeiten und Ersetzen von Tabellennamen durch Refs.

Das Problem, das wir hier lösen wollten, war:

Wie Sie den dbt-Modellierungs- und Datenexplorationsprozess nahtlos gestalten, damit Sie nicht hin und her gehen müssen.
Wie Sie die Optimierung kompilierter DBT-Modelle effizient gestalten, ohne zwischen Ihrem Code-Editor und dem SQL-Editor hin- und herwechseln zu müssen

Für wen ist Paradies?

Während der Entwicklung des Betriebssystems für Apple gab es zwei Denkrichtungen – Wozniak glaubte, dass es ein offenes System sein sollte, damit Bastler und Tüftler damit spielen können, und Steve Jobs dachte, es sollte ein System sein, das einfach funktioniert. Heute lieben wir MacOS, weil es einfach funktioniert.

Während unserer Recherchen haben wir festgestellt, dass es heute auf der Welt ähnlich zwei Hauptpersönlichkeiten von Analysten / Analyseingenieuren gibt:

Tüftler – Das sind Leute, die gerne basteln, mit verschiedenen Tools und Bibliotheken herumspielen. Sie erkunden gerne ihre eigenen Funktionen und bauen sie auf bestehenden OSS auf. Sie sind bereits mit ihrem eigenen IDE-Setup super vertraut. Sie sind Hobbyisten. Sie sind eher softwaretechnisch orientiert. Es ist unwahrscheinlich, dass Paradime heute gut zu ihnen passt.
Builder – Dies sind Benutzer, die sich ausschließlich darauf konzentrieren, ihre Arbeit schnell und problemlos zu erledigen. Benutzer, die Wert auf Produktivität legen, Benutzer, für die Geschwindigkeit gewinnt. Sie möchten ihre Analyse- und Datenmodellierungsfähigkeiten verbessern. Sie wollen aus ihren Erkenntnissen einen geschäftlichen Mehrwert generieren. Sie lieben einfach Tools, die keine Einrichtung erfordern, die einfach funktionieren. Das Paradies ist für sie.

Was kommt als nächstes?

Nun, verdammt viel. Wir kündigen hier nur die Spitze des Eisbergs an. Wir starten nächste Woche auch bei Product Hunt, also folgen Sie uns bitte, um benachrichtigt zu werden, wenn wir starten.

Wir haben in den kommenden Monaten viel vor, also haltet euch fest.

Denn wie ich bereits sagte, braucht die Welt der Analytik wirklich eine bessere Klasse von Tools, mit denen sie arbeiten kann, und wir haben noch einen langen Weg vor uns.