Introduciendo Paradime

Introducción
Hoy estamos levantando las cortinas y presentando Paradime , el sistema operativo para análisis, que hemos estado construyendo durante los últimos 2 años en sigilo.
Construir una startup en sigilo es difícil. Es más difícil de lo que puedes imaginar. La contratación es difícil, la prospección es difícil. Hablar con la gente sobre tu producto es difícil. Pero sí ayuda a construir e iterar un producto sin distracciones junto con nuestros socios de diseño para reafirmar la propuesta. Así que eso es lo que hemos estado haciendo.
En la pila de datos moderna, en los últimos años, la proliferación de nuevas soluciones puntuales ha llevado al caos de herramientas. Hay tantas herramientas por ahí que es imposible hacer un seguimiento de todas ellas. Los líderes de datos dedican más tiempo del que deberían a tratar de administrar sus herramientas, costos y proveedores. Están cansados de hacer viajes de ida y vuelta con compras. También están hartos de lidiar con la proliferación de datos entre múltiples proveedores, lo que aumenta el riesgo de filtraciones de datos.
Para el ingeniero de análisis, el caos de herramientas ha provocado una sobrecarga cognitiva y una caída de la productividad. La vida se ha vuelto más difícil que nunca.
Como Benn resumió en su publicación El polvorín de la pila de datos moderna que:
Sin embargo, la batalla más grande que se avecina será sobre un territorio diferente: el cerebro, o el sistema operativo.
En Paradime, estamos construyendo el sistema operativo para análisis .
Fondo
En 2018-19, en Octopus, mi equipo estaba reconstruyendo toda la pila de datos desde cero. Desarmamos una frágil pila heredada que constaba de SSIS, código de ingestión personalizado escrito en .NET, SQL Server, Qlik, etc.
La solución final con la que terminamos después de 6 meses de arduo trabajo se parecía a la siguiente:
- Stitch , Fivetran y Segment para ingesta de datos
- dbt-core ejecutándose dentro del flujo de aire para la transformación
- Buscador de visualización

Además de la arquitectura de herramientas, cuando agregamos la capa de personas/equipo, vimos que:
- Los flujos de datos mantuvieron las herramientas estrechamente acopladas
- Sin embargo, las herramientas fragmentaron la capa de personas/equipo
- Y Slack era el único pegamento que conectaba vagamente la comunicación humana.

Todos los analistas de datos pasarían la mayor parte de sus días rebotando entre aplicaciones de código bajo/algún código/código abierto/comerciales, combatiendo incendios y ahogándose en solicitudes de datos cuando todo lo que deberían hacer es generar un retorno de la inversión para el negocio.
Una organización Serie C+ promedio tendría 70 empleados en funciones comerciales por analista de datos, lo que significa que en un día cualquiera estos 70 empleados se volverían locos por no obtener respuestas a sus preguntas o solicitudes y el pobre analista estaría gritando en su cabeza que quería generar información valiosa y no responder a Slack todo el día. Este punto muerto lo vimos de primera mano en Octopus, luego en The Guardian, luego en Revolut, Hubspot, Carta, y la lista literalmente continúa.
Escuchamos una y otra vez de analistas de datos e ingenieros analíticos que, si bien dbt los había liberado del infierno de SQL, la explosión de herramientas los había llevado de vuelta al infierno.
Por otro lado, vimos que las funciones comerciales tienen hambre de datos y toman decisiones comerciales basadas en datos que aumentaron exponencialmente. Slack sin contexto de datos ya no era adecuado para la empresa basada en datos.
La capa esencial de conversación de persona a persona en torno a los datos era torpe, consumía mucho tiempo y carecía de contexto.
Decidimos abordar el problema de la productividad y la colaboración en los flujos de trabajo analíticos a través de Paradime.
Nos dimos cuenta de que el nuevo mundo de dbt + la pila de datos moderna necesita una nueva categoría de herramientas con las que trabajar para que las personas puedan trabajar más rápido, de manera más inteligente y mucho menos estresadas.
¿Qué estamos construyendo?
La disciplina del análisis de datos ha evolucionado enormemente en los últimos años. Existe un movimiento para llevar los principios de la ingeniería de software a la analítica. La analítica como disciplina es diferente de la ingeniería de software. Hay contexto de código, contexto de datos y contexto de personas. Sin embargo, como analistas, estamos atascados con las herramientas utilizadas por los ingenieros de software.
Estamos cambiando este status quo al traer al mercado lo siguiente:
- Un sistema operativo de análisis que brinda a las personas control sobre sus datos mientras crea un salto de valor no lineal a través de flujos de trabajo eficientes.
- conectando datos, análisis y funciones comerciales en un único flujo de trabajo colaborativo
Es como tener procesadores realmente potentes en la placa base mientras que el sistema de bus entre ellos tiene un rendimiento limitado.
Paradime está diseñado para impulsar esos flujos de trabajo analíticos, que hoy en día no existen en la mayoría de las organizaciones o solo están presentes en empresas con recursos significativos para crear herramientas internas.
En ese sentido, hoy anunciamos 5 componentes de ese flujo de trabajo como se explica a continuación.
1. Incorporación
Dejando de configurar y administrar espacios de trabajo de dbt en computadoras portátiles individuales, en Paradime puede incorporar analistas en menos de 3 minutos una vez que el administrador configura la cuenta. La configuración de la cuenta de administrador toma menos de 30 minutos y no requiere ningún soporte de ingeniería. No hay costos de implementación y servicios profesionales de 3 meses.
Admitimos la conexión al repositorio dbt en Github , BitBucket y Gitlab . Admitimos la conexión a Redshift , BigQuery , Snowflake y Firebolt y más.
2. Código IDE
El Code IDE es la joya de la corona de la experiencia Paradime.
Paradime IDE ofrece la mejor experiencia IDE de escritorio de su clase para análisis en la nube. Es rápido, eficaz y tiene la más amplia cobertura de funciones. Está diseñado específicamente para flujos de trabajo de análisis en comparación con los IDE de nube de uso general como Gitpod , AWS Cloud9 , Stackblitz , que son más adecuados para la ingeniería de software.
Viene con toda la ergonomía que los desarrolladores esperan de un IDE de escritorio, pero algunas de las características notables incluyen:
- Todo lo que tiene en VSCode : apariencia, atajos de teclado, búsqueda de archivos para que no tenga que aprender un nuevo IDE desde cero.
- Una terminal nativa para ejecutar cualquier comando CLI, incluidos git, python y SqlFluff
- Los usuarios avanzados de dbt también pueden instalar sus propios paquetes de python.
- Compatibilidad completa con git-ops basada en la interfaz de usuario para usuarios principiantes y avanzados
- Y lo más importante, vista en línea en tiempo real de linaje, documentos, vista previa de datos para cualquier modelo dbt, sin ejecutar ningún comando dbt ni generar manifest.json

3. Graficar linaje
El problema que queríamos resolver aquí era:
- Los analistas no pueden esperar horas o incluso minutos para ver un linaje actualizado mientras construyen nuevos modelos o refactorizan los existentes. Necesitan una vista en tiempo real.
- Los analistas necesitan una comprensión holística del linaje tanto en la capa dbt (ya en dbt-cloud) como en la capa BI en su trabajo diario.

Para Looker, proporcionamos linaje a través de Vistas, Exploraciones, Looks, Tableros y Programaciones, brindándole una vista de extremo a extremo de su linaje de dbt+Looker. De manera similar, para Tableau podemos vincular fuentes de datos, hojas de trabajo y tableros.
Los equipos van más allá dbt exposures
de , que son difíciles de mantener y no brindan ninguna visibilidad sobre los componentes de la capa de BI entre las tablas dbt y los tableros de BI.
4. Horarios de pernos
El problema que queríamos resolver aquí era:
- Los usuarios de Analytics encuentran difícil Airflow / Dagster / Prefect
- A los equipos de Data Platform no les gusta que la gente vaya y cambie los flujos de trabajo de producción en la interfaz de usuario de dbt-cloud sin trazabilidad.

También tenemos API para activar sus programaciones dbt de Airflow, Dagster o Prefect y recibir alertas cuando estén completas. La API brinda a los equipos de la plataforma más control para administrar las dependencias en sentido ascendente y descendente de los cronogramas de dbt.
¿Y le dije? También tenemos un importador de un solo clic para todos sus trabajos de dbt desde dbt cloud a Paradime, por lo que migrar no se siente como una aventura loca.
5. Consulta SQL
La construcción de un modelo dbt es la mayoría de las veces el último paso en el proceso de modelado. Los analistas pasan mucho tiempo explorando datos en el almacén y jugando con SQL sin procesar y compilado de modelos existentes para ejecutar su trabajo diario. Hay numerosas idas y venidas entre el editor IDE y SQL, copiar y pegar, editar y reemplazar nombres de tablas con referencias.
El problema que queríamos resolver aquí era:
- Cómo hacer que el proceso de exploración de datos y modelado de dbt sea perfecto para que no tenga que ir y venir.
- Cómo hacer que el ajuste de los modelos dbt compilados sea eficiente sin tener que hacer viajes de ida y vuelta entre su editor de código y el editor de SQL
¿Para quién es Paradime?
Durante la evolución del sistema operativo para Apple, hubo dos escuelas de pensamiento: Wozniak creía que debería ser un sistema abierto para que los aficionados y los aficionados pudieran jugar con él y Steve Jobs pensó que debería ser un sistema que simplemente funcionara. Hoy, amamos MacOS, porque simplemente funciona.
Durante nuestra investigación, descubrimos que, de manera similar, existen dos personas principales de analistas/ingenieros analíticos en el mundo actual:
- Tinkerers : estas son personas a las que les encanta jugar, jugar con diferentes herramientas y bibliotecas. Les gusta explorar y crear sus propias funciones sobre el OSS existente. Ya se sienten muy cómodos con su propia configuración de IDE. Son aficionados. Están más orientados a la ingeniería de software. Es poco probable que Paradime sea una buena opción para ellos hoy.
- Constructores : estos son usuarios que se enfocan singularmente en hacer su trabajo rápidamente y sin problemas. Usuarios que valoran la productividad, usuarios para los que gana la velocidad. Quieren perfeccionar sus habilidades de análisis y modelado de datos. Quieren generar valor comercial a partir de sus conocimientos. Les encantan las herramientas que no necesitan configuración, que simplemente funcionan. Paradime es para ellos.
¿Que sigue?
Bueno, muchísimo. Estamos anunciando solo la punta del iceberg aquí. También lanzaremos Product Hunt la próxima semana, así que síganos para recibir una notificación cuando lancemos.
Tenemos mucho por venir en los próximos meses, así que agárrense a sus asientos.
Porque como dije antes, el mundo de la analítica realmente necesita una mejor clase de herramientas para trabajar y tenemos un largo camino por recorrer.