Présentation de Paradime

Dec 01 2022
Introduction Aujourd'hui, nous levons les rideaux et présentons Paradime, le système d'exploitation pour l'analyse, que nous construisons furtivement depuis 2 ans. Construire une startup en toute discrétion est difficile.

Introduction

Aujourd'hui, nous levons les rideaux et présentons Paradime , le système d'exploitation pour l'analytique, que nous construisons furtivement depuis 2 ans.

Construire une startup en toute discrétion est difficile. C'est plus difficile que vous ne pouvez l'imaginer. L'embauche est difficile, la prospection est difficile. Parler aux gens de votre produit est difficile. Mais cela aide à construire et à itérer un produit sans distractions aux côtés de nos partenaires de conception pour raffermir la proposition. C'est donc ce que nous avons fait.

Dans la pile de données moderne, au cours des dernières années, la prolifération de nouvelles solutions ponctuelles a conduit au chaos des outils. Il existe tellement d'outils qu'il est impossible de tous les suivre. Les leaders des données passent plus de temps qu'ils ne le devraient à essayer de gérer leurs outils, leurs coûts et leurs fournisseurs. Ils en ont assez de faire des allers-retours avec les achats. Ils en ont également assez de gérer la prolifération des données entre plusieurs fournisseurs, ce qui augmente le risque de violation de données.

Pour l'ingénieur analytique, le chaos des outils a entraîné une surcharge cognitive et une baisse de productivité. La vie est devenue plus difficile que jamais.

Comme Benn l'a résumé dans son article Le baril de poudre de la pile de données moderne qui :

La plus grande bataille imminente, cependant, se déroulera sur un territoire différent : le cerveau - ou le système d'exploitation

Chez Paradime, nous construisons le système d'exploitation pour l'analyse .

Arrière plan

En 2018-2019, chez Octopus, mon équipe reconstruisait l'intégralité de la pile de données à partir de zéro. Nous avons déchiré une pile héritée fragile composée de SSIS, un code d'ingestion sur mesure écrit en .NET, SQL Server, Qlik, etc.

La solution finale à laquelle nous nous sommes retrouvés après 6 mois de travail exténuant ressemblait à quelque chose comme ci-dessous :

  • Stitch , Fivetran et Segment pour l'ingestion de données
  • dbt-core fonctionnant à l'intérieur du flux d'air pour la transformation
  • Looker pour la visualisation
  • La pile de données avec seulement les outils

En plus de l'architecture des outils, lorsque nous avons ajouté la couche personnes/équipe, nous avons constaté que :

  • Les flux de données maintenaient les outils étroitement couplés
  • Pourtant, les outils ont fragmenté la couche personnes / équipe
  • Et, Slack était le seul lien lâche pour la communication humaine
  • La pile de données avec les personnes et les équipes superposées

Chaque analyste de données passerait la plupart de ses journées à rebondir entre des applications low-code/some-code/open-source/commerciales, à lutter contre les incendies et à se noyer dans les demandes de données alors que tout ce qu'il devrait faire est de générer un retour sur investissement pour l'entreprise.

Une organisation moyenne de série C + aurait 70 employés dans des fonctions commerciales par analyste de données, ce qui signifie que chaque jour, ces 70 employés deviendraient fous de ne pas obtenir de réponses à leurs questions ou demandes et le pauvre analyste crierait dans son tête qu'il voulait construire des informations précieuses et non répondre à Slack toute la journée. Cette impasse, nous l'avons vu de première main chez Octopus, puis chez le Guardian, puis chez Revolut, Hubspot, Carta, et la liste continue littéralement.

Nous avons entendu à maintes reprises des analystes de données et des ingénieurs d'analyse dire que si dbt les avait libérés de l'enfer SQL, l'explosion des outils les avait replongés dans l'enfer.

D'un autre côté, nous avons constaté que les fonctions commerciales avaient soif de données et que la prise de décisions commerciales basées sur les données augmentait de façon exponentielle. Slack sans contexte de données n'était plus adapté à l'entreprise axée sur les données.

La couche essentielle de conversation interhumaine autour des données était maladroite, chronophage et dépourvue de contexte.

Nous avons décidé de nous attaquer au problème de la productivité et de la collaboration dans les workflows d'analyse via Paradime.

Nous avons réalisé que le nouveau monde de dbt + la pile de données moderne a besoin d'une nouvelle catégorie d'outils pour travailler avec afin que les gens puissent travailler plus rapidement, plus intelligemment et beaucoup moins stressés.

Que construisons-nous ?

La discipline de l'analyse de données a considérablement évolué ces dernières années. Il y a un mouvement pour intégrer les principes du génie logiciel à l'analytique. L'analyse en tant que discipline est différente du génie logiciel. Il existe un contexte de code, un contexte de données et un contexte de personnes. Pourtant, en tant qu'analystes, nous sommes coincés avec les outils utilisés par les ingénieurs en logiciel.

Nous changeons ce statu quo en mettant sur le marché les éléments suivants :

  1. Un système d'exploitation d'analyse qui permet aux utilisateurs de contrôler leurs données tout en créant un saut de valeur non linéaire grâce à des flux de travail efficaces.
  2. connecter les données, les analyses et les fonctions commerciales dans un flux de travail collaboratif unique

C'est comme avoir des processeurs vraiment puissants sur la carte mère alors que le système de bus entre eux est limité en débit.

Le modèle de l'intelligence des données moderne

Paradime est conçu pour suralimenter ces flux de travail d'analyse, qui sont aujourd'hui inexistants dans la plupart des organisations ou uniquement présents dans les entreprises disposant de ressources importantes pour créer des outils internes.

À cet effet, nous annonçons aujourd'hui 5 composants de ce flux de travail, comme expliqué ci-dessous.

1. Intégration

En s'éloignant de la configuration et de la gestion des espaces de travail dbt sur des ordinateurs portables individuels, dans Paradime, vous pouvez intégrer des analystes en moins de 3 minutes une fois le compte configuré par l'administrateur. La configuration du compte administrateur prend moins de 30 minutes et ne nécessite aucune assistance technique. Il n'y a pas de frais de mise en œuvre de 3 mois et de services professionnels.

Nous prenons en charge la connexion au référentiel dbt sur Github , BitBucket et Gitlab . Nous prenons en charge la connexion à Redshift , BigQuery , Snowflake et Firebolt et plus encore.

2. Code IDE

Le Code IDE est le joyau de la couronne de l'expérience Paradime.

L'IDE Paradime apporte la meilleure expérience IDE de bureau de sa catégorie pour l'analyse dans le cloud. Il est rapide, performant et offre la plus large couverture de fonctionnalités. Il est spécialement conçu pour les workflows d'analyse par rapport aux IDE cloud à usage général tels que Gitpod , AWS Cloud9 , Stackblitz , qui sont plus adaptés au génie logiciel.

Il est livré avec toute l'ergonomie que les développeurs attendent d'un IDE de bureau, mais certaines des fonctionnalités notables incluent :

  • Tout ce que vous avez dans VSCode - apparence, raccourcis clavier, recherche de fichiers pour que vous n'ayez pas à apprendre un nouvel IDE à partir de zéro.
  • Un terminal natif pour exécuter n'importe quelle commande CLI, y compris git, python et SqlFluff
  • Les utilisateurs expérimentés de dbt peuvent également installer leurs propres packages python.
  • Prise en charge complète des git-ops basée sur l'interface utilisateur pour les utilisateurs débutants et avancés
  • Et surtout, une vue en ligne en temps réel de la lignée, des documents, de l'aperçu des données pour n'importe quel modèle dbt - sans exécuter de commande dbt ni générer manifest.json

3. Lignée graphique

Le problème que nous voulions résoudre ici était :

  1. Les analystes ne peuvent pas attendre des heures ou même des minutes pour voir une lignée mise à jour lorsqu'ils créent de nouveaux modèles ou refactorisent des modèles existants. Ils ont besoin d'une vue en temps réel.
  2. Les analystes ont besoin d'une compréhension holistique de la lignée à la fois dans la couche dbt (déjà dans dbt-cloud) et dans la couche BI dans leur travail quotidien.
la lignée couvrant dbt, Looker et Tableau

Pour Looker, nous fournissons une lignée à travers les vues, les explorations, les looks, les tableaux de bord et les calendriers, vous offrant une vue de bout en bout de votre lignée dbt+Looker. De même, pour Tableau , nous pouvons lier des sources de données, des feuilles de calcul et des tableaux de bord.

Les équipes vont au-delà dbt exposures, ce qui est difficile à maintenir et n'offre aucune visibilité sur les composants de la couche BI entre les tables dbt et les tableaux de bord BI.

4. Horaires des boulons

Le problème que nous voulions résoudre ici était :

  1. Les utilisateurs d'Analytics trouvent Airflow / Dagster / Prefect difficile
  2. Les équipes de la plate-forme de données n'aiment pas que les gens modifient les workflows de production dans l'interface utilisateur dbt-cloud sans traçabilité.
programmes de boulons suivis par git qui peuvent être exécutés de n'importe où

Nous avons également des API pour déclencher vos plannings dbt depuis Airflow, Dagster ou Prefect et recevoir des alertes lorsqu'ils sont terminés. L'API donne aux équipes de plateforme plus de contrôle pour gérer les dépendances en amont et en aval des plannings dbt.

Et vous ai-je dit, nous avons également un importateur en un clic pour tous vos travaux dbt de dbt cloud vers Paradime, donc la migration ne ressemble pas à une aventure folle.

5. Requête SQL

La construction d'un modèle dbt est la plupart du temps la dernière étape du processus de modélisation. Les analystes passent beaucoup de temps à explorer les données dans l'entrepôt et à jouer avec le SQL brut et compilé des modèles existants pour exécuter leur travail quotidien. Il existe de nombreux allers-retours entre l'EDI et l'éditeur SQL, copier et coller, éditer et remplacer les noms de table par des références.

Le problème que nous voulions résoudre ici était :

  1. Comment rendre le processus de modélisation et d'exploration de données dbt transparent afin que vous n'ayez pas à faire des allers-retours.
  2. Comment rendre efficace le réglage des modèles de base de données compilés sans avoir à faire des allers-retours entre votre éditeur de code et l'éditeur SQL

A qui s'adresse Paradime ?

Au cours de l'évolution du système d'exploitation pour Apple, il y avait deux écoles de pensée - Wozniak pensait que ce devrait être un système ouvert pour que les amateurs et les bricoleurs puissent jouer avec et Steve Jobs, pensait que ce devrait être un système qui fonctionne tout simplement. Aujourd'hui, nous aimons MacOS, car cela fonctionne tout simplement.

Au cours de nos recherches, nous avons constaté qu'il existe de la même manière deux personnalités principales d'analystes/ingénieurs analytiques dans le monde aujourd'hui :

  • Bricoleurs - Ce sont des gens qui aiment bricoler, jouer avec différents outils et bibliothèques. Ils aiment explorer et créer leurs propres fonctionnalités par-dessus les logiciels libres existants. Ils sont déjà très à l'aise avec leur propre configuration IDE. Ce sont des amateurs. Ils sont plus orientés vers le génie logiciel. Il est peu probable que Paradime leur convienne aujourd'hui.
  • Constructeurs - Ce sont des utilisateurs qui se concentrent singulièrement sur l'exécution rapide de leur travail sans aucun problème. Des utilisateurs qui valorisent la productivité, des utilisateurs pour qui la vélocité gagne. Ils veulent perfectionner leurs compétences en analyse et en modélisation de données. Ils veulent générer de la valeur commerciale à partir de leurs idées. Ils adorent les outils qui ne nécessitent aucune configuration, qui fonctionnent tout simplement. Paradime est pour eux.

Et après?

Eh bien, un enfer de beaucoup. Nous n'annonçons ici que la pointe de l'iceberg. Nous lançons également Product Hunt la semaine prochaine, alors suivez-nous pour être averti de notre lancement.

Nous avons beaucoup à venir dans les mois à venir, alors accrochez-vous à vos places.

Parce que, comme je l'ai déjà dit, le monde de l'analyse a vraiment besoin d'une meilleure classe d'outils avec lesquels travailler et nous avons encore un long chemin à parcourir.