Propiedad distribuida de todos los datos en Oda

Nov 28 2022
En Oda, la propiedad de datos distribuidos, el gobierno de datos compartidos es uno de los seis principios sobre cómo creamos valor a partir de los datos. Este principio ha sido clave para nuestro éxito en escalar Data & Insight de un equipo de una pizza a una disciplina considerable, y en ampliar los límites de lo que es posible cuando los datos se encuentran con problemas del mundo real en el espacio de comestibles en línea.

En Oda, la propiedad de datos distribuidos, el gobierno de datos compartidos es uno de los seis principios sobre cómo creamos valor a partir de los datos . Este principio ha sido clave para nuestro éxito en escalar Data & Insight de un equipo de una pizza a una disciplina considerable, y en ampliar los límites de lo que es posible cuando los datos se encuentran con problemas del mundo real en el espacio de comestibles en línea. En esta publicación, profundizamos en lo que entendemos por propiedad de datos distribuidos, gobierno de datos compartidos y cómo hemos resuelto esto en la práctica.

Nuestros seis principios sobre cómo creamos valor con los datos: profundizar en la propiedad de datos distribuidos, la gobernanza de datos compartidos.

Los datos son una capacidad, no una función

La mayoría de nuestros analistas de datos, científicos de datos y algunos ingenieros de datosTrabaje como parte de equipos de productos multifuncionales con ingenieros de software, gerentes de productos, diseñadores de UX y expertos en dominios (como especialistas en logística, comerciales y de crecimiento) en diferentes partes de nuestra organización. La ubicación conjunta de habilidades de datos y problemas de dominio es solo el primer paso: también queremos empoderar a nuestros equipos para que se muevan de forma autónoma y con velocidad para resolver los problemas en cuestión, y aquí es donde la propiedad distribuida juega un papel importante. Inspirándonos en el concepto de malla de datos, hemos colocado la mayor parte de la responsabilidad de los datos en los diferentes equipos de productos que asumen la propiedad total de "todos los datos" dentro de su dominio empresarial. Los equipos cuentan con el apoyo de equipos de la plataforma central, que brindan servicios de plataforma y habilitación como infraestructura, herramientas, pautas y capacitación que todos necesitan para trabajar de manera eficiente con los datos.

En la práctica, esto significa que cada equipo es responsable de toda la cadena de valor de los datos en su dominio. Esto incluye todo, desde la producción e ingesta de datos, canalizaciones y productos de datos, así como temas como la alfabetización de datos y cómo tomamos medidas en base a la información. En Oda, los datos son una capacidad, no una función. No tenemos un equipo central de datos que resuelva “todos los problemas de datos”. Esto depende de cada equipo.

En Oda, los datos son una capacidad, no una función. No tenemos un equipo central de datos que resuelva “todos los problemas de datos”. Esto depende de cada equipo.

Los equipos de productos son los nuevos equipos de datos

En las siguientes secciones, utilizaremos el equipo de entrega como ejemplo de cómo funciona la propiedad distribuida. El equipo es parte de nuestra misión de brindar la experiencia de entrega más libre de preocupaciones del mundo, y contamos con analistas de datos que trabajan junto con ingenieros de software, un gerente de producto, diseñadores y especialistas en distribución para que eso suceda. El equipo es responsable de aspectos como la gestión de vehículos, el personal de rutas y las devoluciones de los clientes, y construyen y operan la tecnología y las aplicaciones que respaldan estos procesos.

Las responsabilidades de un equipo como Delivery en el modelo de propiedad distribuida se pueden resumir en seis puntos:

  • Producir y exponer datos de aplicaciones
  • Hacer que los datos estén fácilmente disponibles para ellos y para otros
  • Cree y ejecute canalizaciones de datos
  • Cree y administre productos de datos
  • Impulse el desarrollo de productos con datos
  • Capacitar a los equipos y a las personas a las que apoyan

Producir y exponer datos de aplicaciones

Las fuentes de datos más importantes para el equipo de entrega son las aplicaciones que crean y ejecutan. Ejemplos de esto son la aplicación móvil que usan los conductores para hacer sus entregas y la aplicación que usa la oficina de despacho para planificar, monitorear y ayudar a los conductores en las rutas. Al crear y ejecutar sus propias fuentes de datos, el equipo tiene control total sobre qué, cómo y cuándo se generan los datos. Los analistas de datos trabajarán junto con los ingenieros de software para asegurarse de que los datos correctos se almacenen en el formato correcto en los sistemas de origen y que los datos de eventos relevantes se rastreen en las aplicaciones. Este es un "cambio a la izquierda" en los datos para los equipos de productos: los datos son parte de cada paso del proceso de diseño y construcción en lugar de ser una ocurrencia tardía. Los problemas de calidad de los datos se eliminan de raíz en lugar de acumularse en la parte inferior de la cartera de pedidos.

Este es un "cambio a la izquierda" en los datos para los equipos de productos: los datos son parte de cada paso del proceso de diseño y construcción en lugar de ser una ocurrencia tardía. Los problemas de calidad de los datos se eliminan de raíz en lugar de acumularse en la parte inferior de la cartera de pedidos.

Hacer que los datos estén fácilmente disponibles para ellos y para otros

Cada equipo también es responsable de hacer que sus datos estén disponibles y sean interoperables para que otros equipos los utilicen. Esto no sería posible sin los equipos de plataforma que respaldan a los equipos de producto con infraestructura, herramientas y pautas compartidas. En Oda, usamos Fivetran para la ingesta por lotes de datos transaccionales y Snowplow para datos de eventos de la web, aplicaciones y del lado del servidor, y todos los datos se depositan en nuestro almacén de datos, Snowflake. En Snowflake, los datos están disponibles para que otros equipos los consulten y desarrollen, lo que los hace interoperables con datos de otros equipos y dominios. Como ejemplo, los analistas de datos en la entrega son responsables de extraer los datos producidos en el proceso de gestión de vehículos y configurar instantáneas periódicas de los conjuntos de datos de los que queremos mantener un registro histórico.

Para asegurarnos de que los datos sean interoperables en toda nuestra pila de conocimientos, seguimos pautas compartidas sobre cómo establecer nombres y estructuras de datos. De esta forma, nos aseguramos de que los datos de diferentes equipos y dominios se puedan usar juntos en diferentes capas lógicas en Snowflake y en la capa semántica (exploración) en Looker.

Nuestra arquitectura de conocimientos: los datos se obtienen de los sistemas de origen mediante Fivetran y Snowplow, se almacenan en Snowflake, se transforman mediante dbt y se exponen a través de Amplitude, Looker, notebooks, aplicaciones y Growthbook.

Cree y ejecute canalizaciones de datos

Los datos sin procesar rara vez se entregan en la forma y el contexto correctos que necesitamos para fines analíticos. Por lo tanto, una parte importante del trabajo de nuestros analistas de datos, científicos e ingenieros es crear transformaciones de datos y encadenar transformaciones en canalizaciones que están programadas para ejecutarse a intervalos regulares. Usamos dbt para transformar datos en formato de esquema en estrella y conjuntos de datos amplios que se usan para inteligencia comercial, análisis ad hoc y entrada a modelos de aprendizaje automático. Nuestros equipos de plataforma se aseguran de que cada equipo tenga las herramientas, la capacitación y el soporte que necesita para administrar todos los aspectos de sus canalizaciones de datos. Algunos ejemplos de cosas a las que todos los equipos tienen acceso:

  • Canal de Slack separado donde se les notifica cuando algo no funciona o se rompe en sus canales.
  • Tablero de costos donde obtienen una descripción general del gasto de crédito de Snowflake de sus canalizaciones y los trabajos de dbt con peor rendimiento.
  • #data-platform-support Canal de Slack donde pueden comunicarse con los ingenieros de datos para obtener ayuda con tareas como el ajuste del rendimiento.
  • Monitoreo de canalizaciones de datos: los equipos de la plataforma brindan a los equipos de productos la infraestructura y las herramientas que necesitan para ser efectivos en la construcción y ejecución de sus propias canalizaciones de datos.

Los Data Analysts in Delivery se encuentran en una posición única para comprender cómo los datos pueden tener un impacto en el dominio de la entrega y tienen las habilidades para crear los productos de datos que abordan las necesidades y oportunidades específicas del área de entrega. Profundizaremos en los productos de datos en un artículo de seguimiento, pero por ahora, digamos que un producto de datos podría ser cualquier cosa, desde un data mart en Snowflake, una exploración de Looker, hasta un modelo de aprendizaje automático y muchas cosas en entre. El punto principal es que el equipo asume toda la responsabilidad de descubrir, construir, ejecutar y administrar los productos de datos correctos, hacer jardinería de la cartera de productos de datos y asegurarse de que los productos de datos se implementen y funcionen correctamente.

Impulse el desarrollo de productos con datos

En cualquier equipo de productos de alto rendimiento, los datos estarán al frente y al centro cuando se descubran, construyan y administren excelentes productos. Tener los datos y productos de datos correctos es solo una pequeña parte de lo que se necesita para operar a este nivel. Igualmente importante es tener la competencia, la cultura, los marcos, las métricas y la forma de trabajar correctos. Esto significará cosas diferentes para los diferentes roles en cada equipo:

  • El Gerente de Producto dedicará mucho tiempo a revisar y analizar las métricas de productos del equipo y su impacto en las métricas comerciales. Para un gerente de producto en Delivery, el tiempo de carga de la ruta y las entregas a tiempo son ejemplos de métricas para rastrear y comprender. Para los equipos que se basan en las partes de nuestro producto orientadas al cliente, las métricas como las tasas de clics, las tasas de conversión, la profundidad de desplazamiento y los resultados de los últimos experimentos son más relevantes. Debido a que usamos objetivos y resultados clave (OKR) para alinear la estrategia con la ejecución del equipo , el gerente de producto también querrá medir y analizar el progreso hacia los resultados clave en el enfoque durante un período de OKR.
  • Los ingenieros de software se asegurarán de que sus aplicaciones estén debidamente instrumentadas y crearán indicadores de seguimiento y funciones en cada parte de la aplicación y en todas las funciones nuevas. Esto permite que el equipo realice experimentos e implementaciones graduales para comprender cuándo los cambios del producto no son tan útiles, usables o efectivos como pensamos que serían, y para minimizar el impacto de errores y códigos incorrectos. También vigilarán de cerca las métricas tecnológicas como el tiempo de carga, el tiempo de inactividad y el tiempo medio de recuperación para asegurarse de que siempre impulsamos un código de calidad.
  • El diseñador de UX estará interesado en combinar los aprendizajes de su investigación cualitativa con datos cuantitativos sobre cómo se comportan realmente nuestros clientes. Configurarán y ejecutarán experimentos para asegurarse de que se prueben y validen todas las suposiciones, y profundizarán en los datos de diferentes segmentos de clientes.
  • Los analistas de datos, científicos e ingenieros están allí principalmente para ayudar a facilitar esta forma de trabajo. Apoyarán al equipo creando productos de datos útiles, ayudando a configurar experimentos y analizar los resultados, asesorando y capacitando sobre cómo analizar datos y casi todo lo que el equipo necesita para impulsar el desarrollo de productos con datos. Para obtener más información sobre los tres roles diferentes y lo que suelen hacer, consulte nuestros tres roles en Data & Insight en Oda .

Es importante tener en cuenta que, aunque el analista de datos, los científicos y los ingenieros son los "profesionales de datos" del equipo, la propiedad de datos distribuidos es una responsabilidad del equipo y no algo que solo concierne a partes del equipo.

Equipos multifuncionales: personas con diferentes conjuntos de habilidades y antecedentes se unen en equipos de productos multifuncionales para resolver nuestros problemas más difíciles.

Capacitar a los equipos y a las personas a las que apoyan

Otro de nuestros principios es dar más valor a la habilitación que a los traspasos . En nuestro ejemplo, esto significa que el equipo de Entrega trabajará para impulsar la alfabetización de datos, mejorar las habilidades de sus compañeros de trabajo en temas, herramientas y metodología de datos, y brindarles la tutoría y el entrenamiento que necesitan para ser autosuficientes y capaces de resolver la mayoría de sus problemas. problemas del día a día. Muchos de nuestros equipos de productos, incluido el de Entrega, también son responsables de respaldar a los equipos operativos. Por lo tanto, los compañeros de trabajo no solo son miembros de su propio equipo, sino también personas responsables de la gestión de conductores, el control del patio, etc.

Hasta cierto punto, las deficiencias en la alfabetización y competencia de datos se pueden compensar proporcionando productos de datos más refinados: no todos pueden crear el tablero que necesitan, y luego un analista de datos puede crearlo para ellos. El desafío es encontrar un equilibrio entre quién y cuánto habilitar frente a qué y cuánto construir. Idealmente, nuestros analistas de datos, científicos e ingenieros dedican la mayor parte de su tiempo a tareas de gran apalancamiento que realmente requieren su conjunto completo de habilidades especializadas y menos a tareas que, con alguna habilitación, podrían realizar otros. En cualquier caso, y quienquiera que termine construyendo esos tableros, el equipo es responsable de asegurarse de que las áreas que soporta tengan una estructura de tablero bien definida, cohesiva y holística. responsabilidad del equipo.

Idealmente, nuestros analistas de datos, científicos e ingenieros dedican la mayor parte de su tiempo a tareas de gran apalancamiento que realmente requieren su conjunto completo de habilidades especializadas y menos a tareas que, con alguna habilitación, podrían realizar otros.

La habilitación también es importante al poner en funcionamiento los modelos de aprendizaje automático que construyen nuestros científicos de datos. Para que nuestras operaciones tomen buenas decisiones de personal con base en los resultados de nuestros modelos de pronóstico de demanda y ventas, necesitan una buena comprensión de los mecanismos subyacentes y las entradas, suposiciones, fortalezas y debilidades de los modelos.

Habilitar a otros: el equipo de entrega apoya a los equipos operativos, como la gestión del sitio de entrega y el desarrollo de flotas, y las operaciones de distribución local.

Para resumir nuestro ejemplo, Delivery es responsable de todos los aspectos de la creación de valor a partir de los datos en el dominio de entrega, y esto se extiende mucho más allá de ejecutar sus propias canalizaciones de datos. La misma configuración se aplica a todos los demás equipos de productos en Oda y es, en esencia, lo que queremos decir con propiedad distribuida.

Gobernanza compartida: soluciones para la cohesión y la armonía

Al distribuir la propiedad de "todos los datos", capacitamos a todos nuestros equipos para que se muevan de manera autónoma y rápida. Pero aunque valoramos la libertad y la autonomía de nuestros equipos, también creemos que es importante alinearse en algunos aspectos de nuestra práctica de datos. Brindar una experiencia de usuario holística en Looker, usar los mismos nombres para los mismos conceptos de datos y usar las mismas técnicas de modelado de datos y estándares de codificación son ejemplos de cosas que debemos resolver en todos los equipos. Hasta cierto punto, los equipos pueden autogobernarse y coordinarse, y también hay un elemento de autoridad intrínseca en un equipo que es el propietario claro de un dominio de datos (Delivery puede decidir que los vehículos se llamen "vehículos" y no “coches”, por ejemplo).

Herramientas e infraestructura compartidas

Hay muchas buenas razones para alinearse con herramientas comunes para realizar trabajos similares. Por lo general, hay algunos gastos generales en la adquisición y administración de herramientas, ya que a menudo requieren habilidades especializadas para integrarlas, operarlas y usarlas. El costo marginal de agregar más usuarios o casos de uso a una herramienta existente suele ser menor que comprar una herramienta nueva y común que también se adapta a la movilidad interna. En Oda, es una parte importante del mandato de nuestros equipos de plataforma de datos comprender las necesidades de herramientas comunes en toda la organización y comprar, construir, integrar y operar las herramientas que cubren esas necesidades.

Pautas compartidas y mejores prácticas

Tener pautas y mejores prácticas documentadas sobre cómo realizar tareas similares en todos los equipos nos ayuda a mantener baja la complejidad técnica, mejorar la interoperabilidad y la experiencia del usuario, y reducir la barrera para la movilidad interna. Ejemplos de esto podrían ser convenciones de nomenclatura, estándares de codificación, prácticas para manejar datos históricos y paletas de colores estándar para usar en tableros.

Habilitación y capacitación

Al proporcionar la capacitación fundamental sobre nuestras herramientas y conceptos de datos, nos aseguramos de que nuestras herramientas, métodos y mejores prácticas se entiendan y utilicen bien, y que tengamos una comprensión común de nuestros conceptos de datos más importantes. Realizamos capacitaciones regulares de Looker, brindamos soporte ad-hoc y facilitamos comunidades de práctica. Como ejemplo de esto último, el equipo de la plataforma responsable de proporcionar herramientas de experimentación también es responsable de facilitar la comunidad de práctica de experimentación , donde personas de toda la organización se reúnen para aprender sobre la experimentación y acordar prácticas comunes.

Finalmente, vale la pena resaltar el valor de tener una sólida disciplina de Data & Insight donde los profesionales de datos de diferentes equipos se reúnen para aprender, piratear, colaborar, construir relaciones y divertirse. Al tener una comunidad de datos sólida, es más fácil encontrar soluciones comunes a problemas comunes, polinizar ideas y prácticas cruzadas, diferentes enfoques de crowdsourcing para problemas complejos y formar equipos para resolver problemas que abarcan múltiples áreas. También juega un papel importante en el desarrollo profesional de muchos y en la atracción y retención del talento.

Junto con los otros cinco principios, la propiedad de datos distribuidos, el gobierno de datos compartidos juega un papel clave en la forma en que operamos y desarrollamos nuestra práctica de datos en Oda y es, en el mejor de los casos, un enfoque muy poderoso para resolver datos a escala. En esencia, se trata de ver los datos como una capacidad, no como una función, y dar a los equipos de productos una gran libertad (y una gran libertad conlleva una gran responsabilidad).

Si le gustó esta publicación, debe consultar nuestro blog Oda Product & Tech Medium para obtener más información. Allí, puede leer cómo el equipo de entrega pasó de tener un conocimiento cero a predecir el tiempo de servicio con un modelo de aprendizaje automático y cómo empoderar la ciencia de datos de extremo a extremo en Oda con nuestra plataforma de ciencia de datos .