Przedstawiamy Paradime

Dec 01 2022

Wprowadzenie Dzisiaj podnosimy kurtynę i przedstawiamy Paradime, system operacyjny do analiz, który budowaliśmy przez ostatnie 2 lata w ukryciu. Budowanie startupu w ukryciu jest trudne.

Wstęp

Dzisiaj podnosimy kurtynę i przedstawiamy Paradime , system operacyjny do analiz, który budowaliśmy przez ostatnie 2 lata w ukryciu.

Budowanie startupu w ukryciu jest trudne. To trudniejsze niż możesz sobie wyobrazić. Zatrudnianie jest trudne, poszukiwanie jest trudne. Rozmowa z ludźmi o twoim produkcie jest trudna. Ale pomaga budować i iterować produkt bez rozpraszania uwagi wraz z naszymi partnerami projektowymi, aby wzmocnić propozycję. Więc o to nam chodziło.

W nowoczesnym stosie danych w ciągu ostatnich kilku lat mnożenie się nowych rozwiązań punktowych doprowadziło do chaosu narzędziowego. Jest tak wiele narzędzi, że nie sposób śledzić ich wszystkich. Liderzy danych spędzają więcej czasu, niż powinni, próbując zarządzać swoimi narzędziami, kosztami i dostawcami. Są zmęczeni odbywaniem podróży w obie strony z zamówieniami. Mają też dość radzenia sobie z nadmiarem danych u wielu dostawców, co zwiększa ryzyko naruszenia bezpieczeństwa danych.

Dla inżyniera analityka chaos narzędziowy doprowadził do przeciążenia poznawczego i spadku produktywności. Życie stało się trudniejsze niż kiedykolwiek wcześniej.

Jak podsumował Benn w swoim poście Beczka prochu nowoczesnego stosu danych, która:

Jednak największa zbliżająca się bitwa toczyć się będzie o inne terytorium: mózg — czyli system operacyjny

W Paradime budujemy system operacyjny do analityki .

Tło

W latach 2018–2019 w Octopusie mój zespół odbudowywał od podstaw cały stos danych. Rozerwaliśmy na strzępy stary, kruchy stos składający się z usług SSIS, niestandardowego kodu przetwarzania napisanego w .NET, SQL Server, Qlik itp.

Ostateczne rozwiązanie, które otrzymaliśmy po 6 miesiącach wyczerpującej pracy, wyglądało mniej więcej tak:

Stitch , Fivetran i Segment do pozyskiwania danych
dbt-core działający wewnątrz przepływu powietrza do transformacji
Poszukiwacz wizualizacji

Stos danych zawierający tylko narzędzia

Oprócz architektury narzędzi, kiedy dodaliśmy warstwę ludzie/zespół, zobaczyliśmy, że:

Przepływy danych zapewniały ścisłe powiązanie narzędzi
Jednak narzędzia pofragmentowały warstwę ludzie/zespoły
A Slack był jedynym luźno łączącym klejem do komunikacji międzyludzkiej

Stos danych z osobami i zespołami nałożonymi na wierzch

Każdy analityk danych spędziłby większość swoich dni przeskakując między aplikacjami o niskim kodzie/jakiś kod/open source/komercyjnymi, gasząc pożary i tonąc w żądaniach danych, podczas gdy wszystko, co powinien robić, to generować zwrot z inwestycji dla firmy.

Przeciętna organizacja Serii C+ miałaby 70 pracowników w funkcjach biznesowych na analityka danych, co oznacza, że każdego dnia tych 70 pracowników wariowałoby, że nie otrzymują odpowiedzi na swoje pytania lub prośby, a biedny analityk krzyczałby w jego głowę, że chce budować wartościowe spostrzeżenia, a nie odpowiadać na Slacka całymi dniami. Ten impas widzieliśmy z pierwszej ręki w Octopusie, potem w Guardianie, potem w Revolut, Hubspot, Carta, a lista dosłownie jest długa.

Wielokrotnie słyszeliśmy od analityków danych i inżynierów analityków, że podczas gdy dbt wyzwolił ich z piekła SQL, eksplozja narzędzi pchnęła ich z powrotem do piekła.

Z drugiej strony zauważyliśmy, że funkcje biznesowe są głodne danych i podejmowania decyzji biznesowych opartych na danych, które wzrosły wykładniczo. Slack bez kontekstu danych nie nadawał się już do zastosowania w przedsiębiorstwie opartym na danych.

Podstawowa warstwa konwersacji międzyludzkich wokół danych była niezgrabna, czasochłonna i pozbawiona kontekstu.

Postanowiliśmy rozwiązać problem produktywności i współpracy w przepływach pracy analitycznej za pośrednictwem Paradime.

Zdaliśmy sobie sprawę, że nowy świat dbt + nowoczesny stos danych potrzebuje nowej kategorii narzędzi do pracy, aby ludzie mogli pracować szybciej, mądrzej i dużo mniej zestresowani.

Co budujemy?

Dyscyplina analizy danych bardzo się rozwinęła w ciągu ostatnich kilku lat. Istnieje ruch mający na celu wprowadzenie zasad inżynierii oprogramowania do analityki. Analityka jako dyscyplina różni się od inżynierii oprogramowania. Istnieje kontekst kodu, kontekst danych i kontekst ludzi. Jednak jako analitycy utknęliśmy w narzędziach używanych przez inżynierów oprogramowania.

Zmieniamy ten status quo, wprowadzając na rynek następujące produkty:

Analityczny system operacyjny, który daje ludziom kontrolę nad ich danymi, jednocześnie tworząc nieliniowy skok wartości dzięki wydajnym przepływom pracy.
łączenie danych, analiz i funkcji biznesowych w jednym wspólnym przepływie pracy

To tak, jakby mieć naprawdę potężne procesory na płycie głównej, podczas gdy system magistrali między nimi ma ograniczoną przepustowość.

Schemat nowoczesnej analizy danych

Paradime zostało stworzone, aby doładować te przepływy pracy analitycznej, które obecnie albo nie istnieją w większości organizacji, albo są obecne tylko w firmach dysponujących znacznymi zasobami do tworzenia narzędzi wewnętrznych.

W tym celu ogłaszamy dzisiaj 5 elementów tego przepływu pracy, jak wyjaśniono poniżej.

1. Wdrażanie

Odchodząc od konfigurowania i zarządzania obszarami roboczymi dbt na poszczególnych laptopach, w Paradime możesz wdrożyć analityków w mniej niż 3 minuty po skonfigurowaniu konta przez administratora. Konfiguracja konta administratora zajmuje mniej niż 30 minut i nie wymaga żadnego wsparcia technicznego. Nie ma 3 miesięcznych kosztów wdrożenia i profesjonalnej obsługi.

Wspieramy łączenie się z repozytorium dbt na Github , BitBucket i Gitlab . Obsługujemy połączenia z Redshift , BigQuery , Snowflake i Firebolt i nie tylko.

2. Kod IDE

Code IDE to klejnot w koronie doświadczenia Paradime.

Paradime IDE zapewnia najlepsze w swojej klasie środowisko IDE dla komputerów stacjonarnych do analiz w chmurze. Jest szybki, wydajny i ma najszerszy zakres funkcji. Jest specjalnie zaprojektowany do przepływów pracy analitycznych w porównaniu z IDE ogólnego przeznaczenia w chmurze, takimi jak Gitpod , AWS Cloud9 , Stackblitz , które są bardziej odpowiednie do inżynierii oprogramowania.

Zawiera całą ergonomię, jakiej programiści oczekują od IDE dla komputerów stacjonarnych, ale niektóre z godnych uwagi funkcji obejmują:

Wszystko, co masz w VSCode — wygląd i działanie, skróty klawiaturowe, wyszukiwanie plików, dzięki czemu nie musisz uczyć się nowego IDE od zera.
Natywny terminal do uruchamiania dowolnego polecenia CLI, w tym git, python i SqlFluff
Zaawansowani użytkownicy dbt mogą również instalować własne pakiety Pythona.
Pełna obsługa git-ops oparta na interfejsie użytkownika dla początkujących i zaawansowanych użytkowników
A co najważniejsze, widok w czasie rzeczywistym rodowodu, dokumentów, podglądu danych dla dowolnego modelu dbt — bez uruchamiania jakiejkolwiek komendy dbt lub generowania pliku manifest.json

3. Graf rodowodu

Problem, który chcieliśmy tutaj rozwiązać, to:

Analitycy nie mogą czekać godzinami, a nawet minutami, aby zobaczyć zaktualizowaną linię, gdy budują nowe modele lub refaktoryzują istniejące. Potrzebują widoku w czasie rzeczywistym.
Analitycy potrzebują holistycznego zrozumienia linii zarówno w warstwie dbt (już w dbt-cloud), jak iw warstwie BI w swojej codziennej pracy.

rodowód obejmujący dbt, Looker i Tableau

W przypadku Looker zapewniamy pochodzenie w widokach, eksploracjach, wyglądach, pulpitach nawigacyjnych i harmonogramach, zapewniając kompleksowy wgląd w pochodzenie dbt+Looker. Podobnie w przypadku Tableau możemy połączyć źródła danych, arkusze robocze i pulpity nawigacyjne.

Zespoły wychodzą poza dbt exposures, które są trudne w utrzymaniu i nie zapewniają żadnego wglądu w komponenty warstwy BI między tabelami dbt a dashboardami BI.

4. Zestawienia śrub

Problem, który chcieliśmy tutaj rozwiązać, to:

Użytkownicy Analytics uważają Airflow / Dagster / Prefect za trudne
Zespoły Data Platform nie lubią, gdy ludzie przechodzą i zmieniają przepływy pracy produkcyjnej w interfejsie dbt-cloud bez możliwości śledzenia.

harmonogramy śrub śledzone przez git, które można uruchomić z dowolnego miejsca

Mamy również interfejsy API do uruchamiania harmonogramów dbt z Airflow, Dagster lub Prefect i otrzymywania alertów, gdy są kompletne. Interfejs API zapewnia zespołom platformy większą kontrolę nad zarządzaniem zależnościami w górę iw dół od harmonogramów dbt.

A czy mówiłem ci — mamy również importer jednym kliknięciem dla wszystkich twoich zadań dbt z chmury dbt do Paradime, więc migracja nie wydaje się szaloną przygodą.

5. Zapytanie SQL

Budowanie modelu dbt jest najczęściej ostatnim krokiem w procesie modelowania. Analitycy spędzają dużo czasu na eksplorowaniu danych w hurtowni i majstrowaniu przy surowym i skompilowanym SQL istniejących modeli, aby wykonywać swoją codzienną pracę. Istnieje wiele operacji tam iz powrotem między IDE a edytorem SQL, kopiowanie i wklejanie, edytowanie i zastępowanie nazw tabel odnośnikami.

Problem, który chcieliśmy tutaj rozwiązać, to:

Jak sprawić, by proces modelowania dbt i eksploracji danych był bezproblemowy, abyś nie musiał chodzić tam iz powrotem.
Jak sprawić, by dostrajanie skompilowanych modeli dbt było wydajne bez konieczności wykonywania podróży w obie strony między edytorem kodu a edytorem SQL

Dla kogo jest Paradime?

Podczas ewolucji systemu operacyjnego dla Apple istniały dwie szkoły — Wozniak uważał, że powinien to być system otwarty, aby hobbyści i majsterkowicze mogli się nim bawić, a Steve Jobs uważał, że powinien to być system, który po prostu działa. Dziś kochamy MacOS za to, że po prostu działa.

Podczas naszych badań odkryliśmy, że obecnie na świecie istnieją podobnie dwie główne osobowości analityków/inżynierów analityków:

Majsterkowicze — to ludzie, którzy uwielbiają majsterkować, bawić się różnymi narzędziami i bibliotekami. Lubią eksplorować i tworzyć własne funkcje w oparciu o istniejące OSS. Są już bardzo wygodne z własną konfiguracją IDE. Są hobbystami. Są bardziej zorientowani na inżynierię oprogramowania. Jest mało prawdopodobne, aby Paradime pasowało do nich dzisiaj.
Konstruktorzy — to użytkownicy, którzy są szczególnie skoncentrowani na szybkim wykonywaniu pracy bez żadnych problemów. Użytkownicy, którzy cenią produktywność, użytkownicy, dla których wygrywa prędkość. Chcą doskonalić swoje umiejętności analityczne i modelowania danych. Chcą generować wartość biznesową ze swoich spostrzeżeń. Po prostu uwielbiają narzędzia, które nie wymagają konfiguracji, a które po prostu działają. Paradime jest dla nich.

Co dalej?

No cholernie dużo. Ogłaszamy tutaj tylko wierzchołek góry lodowej. W przyszłym tygodniu uruchamiamy również Product Hunt, więc śledź nas, aby otrzymać powiadomienie o uruchomieniu.