Apresentando Paradime

Dec 01 2022
Introdução Hoje estamos levantando as cortinas e apresentando o Paradime, o sistema operacional para análise, que construímos nos últimos 2 anos de forma discreta. Construir uma startup discretamente é difícil.

Introdução

Hoje estamos levantando as cortinas e apresentando o Paradime , o sistema operacional para análise, que construímos nos últimos 2 anos de forma furtiva.

Construir uma startup discretamente é difícil. É mais difícil do que você pode imaginar. Contratar é difícil, prospectar é difícil. Falar com as pessoas sobre o seu produto é difícil. Mas ajuda a construir e iterar um produto sem distrações ao lado de nossos parceiros de design para firmar a proposta. Então é isso que temos feito.

Na pilha de dados moderna, nos últimos anos, a proliferação de novas soluções pontuais levou ao caos das ferramentas. Existem tantas ferramentas por aí que é impossível acompanhar todas elas. Os líderes de dados estão gastando mais tempo do que deveriam tentando gerenciar suas ferramentas, custos e fornecedores. Eles estão cansados ​​de fazer viagens de ida e volta com compras. Eles também estão cansados ​​de lidar com a dispersão de dados entre vários fornecedores, o que aumenta o risco de violações de dados.

Para o engenheiro analítico, o caos da ferramenta levou à sobrecarga cognitiva e à queda na produtividade. A vida tornou-se mais difícil do que nunca.

Como Benn resumiu em seu post O barril de pólvora da pilha de dados moderna que:

A maior batalha iminente, no entanto, será em um território diferente: o cérebro – ou sistema operacional

Na Paradime, estamos construindo o sistema operacional para análises .

Fundo

Em 2018-19, na Octopus, minha equipe estava reconstruindo toda a pilha de dados do zero. Separamos uma pilha herdada frágil que consiste em SSIS, código de ingestão sob medida escrito em .NET, SQL Server, Qlik etc.

A solução final com a qual chegamos após 6 meses de trabalho extenuante parecia algo como abaixo:

  • Stitch , Fivetran e Segment para ingestão de dados
  • dbt-core rodando dentro do fluxo de ar para transformação
  • Looker para visualização
  • A pilha de dados com apenas as ferramentas

Além da arquitetura das ferramentas, quando adicionamos a camada de pessoas/equipe, vimos que:

  • Os fluxos de dados mantiveram as ferramentas fortemente acopladas
  • No entanto, as ferramentas fragmentaram a camada de pessoas/equipe
  • E o Slack era a única cola de conexão flexível para a comunicação humana
  • A pilha de dados com as pessoas e equipes sobrepostas

Todo analista de dados passaria a maior parte de seus dias alternando entre aplicativos low-code/some-code/open-source/comerciais, combatendo incêndios e afogando-se em solicitações de dados, quando tudo o que deveriam fazer é gerar ROI para os negócios.

Uma organização média da Série C+ teria 70 funcionários em funções de negócios por analista de dados, o que significa que em qualquer dia esses 70 funcionários ficariam loucos por não obter respostas para suas perguntas ou solicitações e o pobre analista estaria gritando em seu cabeça que ele queria construir insights valiosos, não responder ao Slack o dia todo. Esse impasse vimos em primeira mão no Octopus, depois no Guardian, depois no Revolut, Hubspot, Carta, e a lista literalmente continua.

Ouvimos repetidas vezes de analistas de dados e engenheiros analíticos que, embora o dbt os tenha libertado do inferno do SQL, a explosão de ferramentas os levou de volta ao fogo do inferno.

Por outro lado, vimos que as funções de negócios anseiam por dados e tomam decisões de negócios baseadas em dados que aumentaram exponencialmente. Slack sem contexto de dados não era mais adequado para o propósito da empresa orientada por dados.

A camada essencial de conversa entre humanos em torno dos dados era desajeitada, demorada e desprovida de contexto.

Decidimos resolver o problema de produtividade e colaboração em fluxos de trabalho analíticos por meio do Paradime.

Percebemos que o novo mundo do dbt + a pilha de dados moderna precisa de uma nova categoria de ferramentas para trabalhar, para que as pessoas possam trabalhar com mais rapidez, inteligência e muito menos estresse.

O que estamos construindo?

A disciplina de análise de dados evoluiu enormemente nos últimos anos. Há um movimento para trazer os princípios da engenharia de software para a análise. A análise como disciplina é diferente da engenharia de software. Há contexto de código, contexto de dados e contexto de pessoas. No entanto, como analistas, estamos presos a ferramentas usadas por engenheiros de software.

Estamos mudando esse status quo trazendo para o mercado o seguinte:

  1. Um sistema operacional analítico que dá às pessoas controle sobre seus dados enquanto cria um salto de valor não linear por meio de fluxos de trabalho eficientes.
  2. conectando dados, análises e funções de negócios em um único fluxo de trabalho colaborativo

É como ter processadores realmente poderosos na placa-mãe enquanto o sistema de barramento entre eles é limitado em taxa de transferência.

O projeto da inteligência de dados moderna

O Paradime foi desenvolvido para sobrecarregar esses fluxos de trabalho analíticos, que hoje são inexistentes na maioria das organizações ou estão presentes apenas em empresas com recursos significativos para criar ferramentas internas.

Nesse sentido, hoje estamos anunciando 5 componentes desse fluxo de trabalho, conforme explicado abaixo.

1. Integração

Deixando de configurar e gerenciar espaços de trabalho dbt em laptops individuais, no Paradime você pode integrar analistas em menos de 3 minutos depois que a conta é configurada pelo administrador. A configuração da conta de administrador leva menos de 30 minutos e não requer nenhum suporte de engenharia. Não há custos de implementação e serviços profissionais de 3 meses.

Oferecemos suporte à conexão com o repositório dbt no Github , BitBucket e Gitlab . Oferecemos suporte para conexão com Redshift , BigQuery , Snowflake e Firebolt e muito mais.

2. Código IDE

O Code IDE é a joia da coroa da experiência Paradime.

O Paradime IDE traz a melhor experiência de desktop IDE para análise na nuvem. É rápido, eficiente e tem a mais ampla cobertura de recursos. Ele foi desenvolvido especificamente para fluxos de trabalho analíticos em comparação com IDEs de nuvem de uso geral, como Gitpod , AWS Cloud9 , Stackblitz , que são mais adequados para engenharia de software.

Ele vem com toda a ergonomia que os desenvolvedores esperam de um IDE de desktop, mas alguns dos recursos notáveis ​​incluem:

  • Tudo o que você tem no VSCode - aparência, atalhos de teclado, pesquisa de arquivos para que você não precise aprender um novo IDE do zero.
  • Um terminal nativo para executar qualquer comando CLI, incluindo git, python e SqlFluff
  • Os usuários avançados do dbt também podem instalar seus próprios pacotes python.
  • Suporte completo a git-ops baseado em interface do usuário para usuários iniciantes e avançados
  • E o mais importante, visualização em linha em tempo real de linhagem, documentos, visualização de dados para qualquer modelo dbt — sem executar nenhum comando dbt ou gerar manifest.json

3. Gráfico de Linhagem

O problema que queríamos resolver aqui era:

  1. Os analistas não podem esperar horas ou mesmo minutos para ver uma linhagem atualizada enquanto constroem novos modelos ou refatoram os existentes. Eles precisam de uma visão em tempo real.
  2. Os analistas precisam de uma compreensão holística da linhagem tanto na camada dbt (já em dbt-cloud) quanto na camada BI em seu trabalho diário.
a linhagem abrangendo dbt, Looker e Tableau

Para o Looker, fornecemos linhagem em Views, Explores, Looks, Dashboards e Schedules, fornecendo a você uma visão completa de sua linhagem dbt+Looker. Da mesma forma, para o Tableau , podemos vincular fontes de dados, planilhas e painéis.

As equipes estão indo além dbt exposures, que são difíceis de manter e não fornecem nenhuma visibilidade dos componentes da camada de BI entre tabelas dbt e painéis de BI.

4. Cronogramas de Parafusos

O problema que queríamos resolver aqui era:

  1. Os usuários do Analytics acham o Airflow / Dagster / Prefect difícil
  2. As equipes da plataforma de dados não gostam que as pessoas alterem os fluxos de trabalho de produção na interface do usuário dbt-cloud sem rastreabilidade.
cronogramas de bolt rastreados pelo git que podem ser executados de qualquer lugar

Também temos APIs para acionar seus agendamentos de dbt do Airflow, Dagster ou Prefect e receber alertas quando estiverem concluídos. A API oferece às equipes de plataforma mais controle para gerenciar dependências upstream e downstream de agendamentos de dbt.

E eu lhe disse - também temos um importador de um clique para todos os seus trabalhos de dbt de nuvem de dbt para Paradime, então migrar não parece uma aventura maluca.

5. Consulta SQL

A construção de um modelo dbt é, na maioria das vezes, a última etapa do processo de modelagem. Os analistas gastam um tempo significativo explorando dados no warehouse e mexendo com SQL bruto e compilado de modelos existentes para executar seu trabalho diário. Existem várias idas e vindas entre o IDE e o editor SQL, copiando e colando, editando e substituindo nomes de tabelas por refs.

O problema que queríamos resolver aqui era:

  1. Como tornar a modelagem de dbt e o processo de exploração de dados perfeitos para que você não precise ir e voltar.
  2. Como tornar eficiente o ajuste de modelos de dbt compilados sem ter que fazer viagens de ida e volta entre o editor de código e o editor SQL

Para quem é o Paradime?

Durante a evolução do sistema operacional para a Apple, havia duas escolas de pensamento - Wozniak acreditava que deveria ser um sistema aberto para que amadores e consertadores pudessem brincar com ele e Steve Jobs achava que deveria ser um sistema que simplesmente funcionasse. Hoje, amamos o MacOS, porque simplesmente funciona.

Durante nossa pesquisa, descobrimos que existem duas personas principais de analistas/engenheiros analíticos no mundo hoje:

  • Tinkerers — São pessoas que adoram mexer, brincar com diferentes ferramentas e bibliotecas. Eles gostam de explorar e construir seus próprios recursos sobre o OSS existente. Eles já estão superconfortáveis ​​com sua própria configuração de IDE. Eles são amadores. Eles são mais orientados para a engenharia de software. É improvável que Paradime seja uma ótima opção para eles hoje.
  • Construtores — Esses são usuários que estão exclusivamente focados em fazer seu trabalho rapidamente sem complicações. Usuários que valorizam a produtividade, usuários para quem a velocidade vence. Eles querem aprimorar suas habilidades de análise e modelagem de dados. Eles querem gerar valor comercial a partir de seus insights. Eles adoram ferramentas que precisam de configuração zero, que simplesmente funcionam. Paradime é para eles.

Qual é o próximo?

Bem, muito. Estamos anunciando apenas a ponta do iceberg aqui. Também estamos lançando o Product Hunt na próxima semana, então siga-nos para ser notificado quando formos lançados.

Temos muito por vir nos próximos meses, então segurem seus assentos.

Porque, como eu disse antes, o mundo da análise realmente precisa de uma classe melhor de ferramentas para trabalhar e ainda temos um longo caminho a percorrer.