Oda의 모든 데이터에 대한 분산 소유권

Nov 28 2022
분산 데이터 소유권인 Oda에서 공유 데이터 거버넌스는 데이터에서 가치를 창출하는 방법에 대한 6가지 원칙 중 하나입니다. 이 원칙은 Data & Insight를 하나의 피자 팀에서 규모가 큰 분야로 확장하고 데이터가 온라인 식료품 공간에서 실제 문제를 만날 때 가능한 것의 경계를 넓히는 데 성공하는 데 핵심이었습니다.

Oda에서 분산 데이터 소유권, 공유 데이터 거버넌스는 데이터에서 가치를 창출하는 방법에 대한 6가지 원칙 중 하나입니다 . 이 원칙은 Data & Insight를 하나의 피자 팀에서 규모가 큰 분야로 확장하고 데이터가 온라인 식료품 공간에서 실제 문제를 만날 때 가능한 것의 경계를 넓히는 데 성공하는 데 핵심이었습니다. 이 게시물에서는 분산 데이터 소유권, 공유 데이터 거버넌스의 의미 와 실제로 이를 해결한 방법에 대해 자세히 설명합니다.

데이터로 가치를 창출하는 방법에 대한 6가지 원칙: 분산 데이터 소유권, 공유 데이터 거버넌스에 대해 자세히 알아보기.

데이터는 기능이 아니라 기능입니다

대부분의 데이터 분석가, 데이터 과학자 및 일부 데이터 엔지니어조직의 여러 부분에서 소프트웨어 엔지니어, 제품 관리자, UX 디자이너 및 도메인 전문가(예: 물류, 상업 및 성장 전문가)와 함께 다기능 제품 팀의 일원으로 일합니다. 데이터 기술과 도메인 문제를 공동 배치하는 것은 첫 번째 단계에 불과합니다. 또한 우리는 팀이 자율적으로 그리고 신속하게 이동하여 당면한 문제를 해결할 수 있도록 권한을 부여하고 여기에서 분산된 소유권이 중요한 역할을 합니다. 데이터 메쉬 개념에서 영감을 받아 비즈니스 도메인 내에서 "모든 데이터"의 완전한 소유권을 갖는 다양한 제품 팀에 데이터에 대한 대부분의 책임을 부여했습니다. 팀은 모두가 데이터를 효율적으로 사용하는 데 필요한 인프라, 도구, 지침 및 교육과 같은 플랫폼 및 구현 서비스를 제공하는 중앙 플랫폼 팀의 지원을 받습니다.

실제로 이것은 각 팀이 해당 영역의 전체 데이터 가치 사슬을 책임진다는 것을 의미합니다. 여기에는 데이터 생산 및 수집, 데이터 파이프라인 및 제품의 모든 것뿐만 아니라 데이터 리터러시와 통찰력에 대한 조치를 취하는 방법과 같은 주제가 포함됩니다. Oda에서 데이터는 기능이 아니라 기능입니다. "모든 데이터 문제"를 해결하는 중앙 데이터 팀이 없습니다. 이것은 각 팀에 달려 있습니다.

Oda에서 데이터는 기능이 아니라 기능입니다. "모든 데이터 문제"를 해결하는 중앙 데이터 팀이 없습니다. 이것은 각 팀에 달려 있습니다.

제품 팀은 새로운 데이터 팀입니다.

다음 섹션에서는 배포 팀을 분산 소유권 작동 방식의 예로 사용합니다. 이 팀은 세계에서 가장 걱정 없는 배송 경험을 제공하려는 우리 사명의 일부이며 이를 실현하기 위해 소프트웨어 엔지니어, 제품 관리자, 디자이너 및 유통 전문가와 함께 일하는 데이터 분석가가 있습니다. 이 팀은 차량 관리, 경로 배치, 고객 반품 등을 담당하며 이러한 프로세스를 지원하는 기술과 애플리케이션을 구축하고 운영합니다.

분산 소유권 모델에서 배달과 같은 팀의 책임은 6개의 글머리 기호로 요약할 수 있습니다.

  • 애플리케이션에서 데이터 생성 및 노출
  • 자신과 다른 사람이 데이터를 쉽게 사용할 수 있도록 합니다.
  • 데이터 파이프라인 빌드 및 실행
  • 데이터 제품 구축 및 관리
  • 데이터로 제품 개발 촉진
  • 그들이 지원하는 팀과 사람들을 활성화

애플리케이션에서 데이터 생성 및 노출

제공 팀에게 가장 중요한 데이터 소스는 그들이 구축하고 실행하는 애플리케이션입니다. 이에 대한 예로는 배달원이 배달할 때 사용하는 모바일 앱과 배차 사무소가 경로에서 운전자를 계획, 모니터링 및 지원하는 데 사용하는 애플리케이션이 있습니다. 자체 데이터 소스를 구축하고 실행함으로써 팀은 데이터 생성 대상, 방법 및 시기를 완전히 제어할 수 있습니다. 데이터 분석가는 소프트웨어 엔지니어와 협력하여 올바른 데이터가 소스 시스템에 올바른 형식으로 저장되고 관련 이벤트 데이터가 애플리케이션에서 추적되는지 확인합니다. 이것은 제품 팀을 위한 데이터의 "왼쪽 이동"입니다. 데이터는 나중에 생각하는 것이 아니라 설계 및 빌드 프로세스의 모든 단계의 일부입니다. 데이터 품질 문제는 백로그 맨 아래에 쌓이는 대신 새싹에서 제거됩니다.

이것은 제품 팀을 위한 데이터의 "왼쪽 이동"입니다. 데이터는 나중에 생각하는 것이 아니라 설계 및 빌드 프로세스의 모든 단계의 일부입니다. 데이터 품질 문제는 백로그 맨 아래에 쌓이는 대신 새싹에서 제거됩니다.

자신과 다른 사람이 데이터를 쉽게 사용할 수 있도록 합니다.

또한 각 팀은 다른 팀이 사용할 수 있도록 데이터를 사용 가능하고 상호 운용 가능하게 만드는 책임이 있습니다. 공유 인프라, 도구 및 지침을 통해 제품 팀을 지원하는 플랫폼 팀이 없었다면 불가능했을 것입니다. Oda에서는 트랜잭션 데이터의 일괄 수집에 Fivetran을 사용하고 웹, 앱 및 서버 측의 이벤트 데이터에 Snowplow를 사용하며 모든 데이터는 데이터 웨어하우스인 Snowflake에 저장됩니다. Snowflake에서 데이터는 다른 팀이 쿼리하고 구축할 수 있도록 제공되므로 다른 팀 및 도메인의 데이터와 상호 운용할 수 있습니다. 예를 들어, 배송 중인 데이터 분석가는 차량 관리 프로세스에서 생성된 데이터를 가져오고 과거 기록을 유지하려는 데이터 세트의 정기적인 스냅샷을 설정하는 일을 담당합니다.

통찰력 스택 전체에서 데이터가 상호 운용될 수 있도록 이름 및 데이터 구조를 설정하는 방법에 대한 공유 지침을 따릅니다. 이러한 방식으로 서로 다른 팀과 도메인의 데이터를 Snowflake의 서로 다른 논리 계층과 Looker의 시맨틱(탐색) 계층에서 함께 사용할 수 있도록 합니다.

당사의 인사이트 아키텍처: 데이터는 Fivetran 및 Snowplow를 사용하여 소스 시스템에서 수집되고 Snowflake에 저장되며 dbt로 변환되고 Amplitude, Looker, 노트북, 애플리케이션 및 Growthbook을 통해 노출됩니다.

데이터 파이프라인 빌드 및 실행

원시 데이터는 분석 목적에 필요한 올바른 형태와 컨텍스트로 제공되는 경우가 거의 없습니다. 따라서 데이터 분석가, 과학자 및 엔지니어의 작업에서 중요한 부분은 정기적인 간격으로 실행되도록 예약된 파이프라인에 데이터 변환 및 체인 변환을 구축하는 것입니다. 우리는 dbt를 사용하여 데이터를 스타 스키마 형식과 비즈니스 인텔리전스, 임시 분석 및 기계 학습 모델에 대한 입력에 사용되는 광범위한 데이터 세트로 변환합니다. 플랫폼 팀은 각 팀이 데이터 파이프라인의 모든 측면을 관리하는 데 필요한 도구, 교육 및 지원을 갖추고 있는지 확인합니다. 모든 팀이 액세스할 수 있는 항목의 몇 가지 예:

  • 파이프라인에서 무언가가 꺼져 있거나 중단될 때 알림을 받는 별도의 Slack 채널.
  • 파이프라인의 Snowflake 크레딧 지출 및 성능이 가장 낮은 dbt 작업에 대한 개요를 볼 수 있는 비용 대시보드.
  • #data-platform-support 성능 튜닝과 같은 작업에 대한 지원을 위해 데이터 엔지니어에게 연락할 수 있는 Slack 채널입니다.
  • 데이터 파이프라인 모니터링: 플랫폼 팀은 자체 데이터 파이프라인을 효과적으로 구축하고 실행하는 데 필요한 인프라와 도구를 제품 팀에 제공합니다.

배송 분야의 데이터 분석가는 데이터가 배송 도메인에 어떤 영향을 미칠 수 있는지 이해할 수 있는 고유한 위치에 있으며 배송 영역의 특정 요구 사항과 기회를 해결하는 데이터 제품을 구축할 수 있는 기술을 보유하고 있습니다. 후속 기사에서 데이터 제품에 대해 자세히 살펴보겠지만 지금은 데이터 제품이 Snowflake의 데이터 마트, Looker 탐색, 기계 학습 모델에 이르기까지 무엇이든 될 수 있다고 가정해 보겠습니다. 사이. 요점은 팀이 올바른 데이터 제품을 검색, 구축, 실행 및 관리하고, 데이터 제품 포트폴리오 원예를 수행하고, 데이터 제품이 적절하게 구현 및 운영되는지 확인하는 데 전적인 책임을 진다는 것입니다.

데이터로 제품 개발 촉진

성과가 좋은 모든 제품 팀에서 훌륭한 제품을 발견, 구축 및 관리할 때 데이터가 가장 중요합니다. 올바른 데이터 및 데이터 제품을 보유하는 것은 이 수준에서 운영하는 데 필요한 것의 작은 부분에 불과합니다. 마찬가지로 중요한 것은 올바른 역량, 문화, 프레임워크, 메트릭 및 작업 방식을 갖는 것입니다. 이것은 각 팀의 다른 역할에 대해 다른 것을 의미합니다.

  • 제품 관리자는 팀의 제품 메트릭과 비즈니스 메트릭에 미치는 영향을 검토하고 분석하는 데 상당한 시간을 할애합니다. 배달의 제품 관리자에게 경로 로딩 시간과 정시 배달은 추적하고 이해해야 할 메트릭의 예입니다. 제품의 고객 대면 부분을 구축하는 팀의 경우 클릭률, 전환율, 스크롤 깊이 및 최신 실험 결과와 같은 측정 항목이 더 적합합니다. 우리는 목표 및 핵심 결과(OKR)를 사용하여 전략을 팀 실행과 일치시키기 때문에 제품 관리자도 OKR 기간 동안 초점이 맞춰진 주요 결과에 대한 진행 상황을 측정하고 분석하기를 원할 것입니다.
  • 소프트웨어 엔지니어는 애플리케이션이 제대로 계측되었는지 확인하고 애플리케이션의 모든 부분과 모든 새로운 기능에 추적 및 기능 플래그를 구축합니다. 이를 통해 팀은 실험 및 점진적 롤아웃을 실행하여 제품 변경이 우리가 생각했던 것만큼 유용하지 않거나 유용하지 않거나 효과적이지 않은 경우를 이해하고 버그 및 잘못된 코드의 영향을 최소화할 수 있습니다. 또한 로드 시간, 중단 시간, 평균 복구 시간과 같은 기술 메트릭을 면밀히 주시하여 항상 품질 코드를 푸시하도록 합니다.
  • UX 디자이너는 고객이 실제로 어떻게 행동하는지에 대한 정량적 데이터와 정성적 연구에서 얻은 정보를 결합하는 데 관심을 가질 것입니다. 그들은 모든 가정이 테스트되고 검증되었는지 확인하기 위해 실험을 설정하고 실행하며 다양한 고객 세그먼트의 데이터를 깊이 파고들 것입니다.
  • 데이터 분석가, 과학자 및 엔지니어는 주로 이러한 작업 방식을 용이하게 하기 위해 존재합니다. 그들은 유용한 데이터 제품을 구축하고, 실험을 설정하고 결과를 분석하는 것을 돕고, 데이터를 분석하는 방법을 지도하고 교육하며, 팀이 데이터를 사용하여 제품 개발을 추진하는 데 필요한 거의 모든 것을 통해 팀을 지원합니다. 세 가지 역할과 일반적으로 수행하는 작업에 대해 자세히 알아보려면 Oda의 Data & Insight에서 세 가지 역할을 확인하세요 .

데이터 분석가, 과학자 및 엔지니어가 팀의 "데이터 전문가"이더라도 분산 데이터 소유권은 팀의 책임이지 팀의 일부에만 관련된 것이 아니라는 점에 유의해야 합니다.

교차 기능 팀: 서로 다른 기술과 배경을 가진 사람들이 교차 기능 제품 팀으로 모여 가장 어려운 문제를 해결합니다.

그들이 지원하는 팀과 사람들을 활성화

우리의 또 다른 원칙은 인계에 대한 가치 부여입니다 . 이 예에서 이는 제공 팀이 데이터 리터러시를 촉진하고, 데이터 주제, 도구 및 방법론에 대해 동료의 기술을 향상시키고, 그들이 스스로 해결하고 대부분의 문제를 해결할 수 있도록 멘토링 및 코칭을 제공한다는 것을 의미합니다. 일상적인 문제. Delivery를 포함한 많은 제품 팀도 운영 팀 지원을 담당합니다. 따라서 동료는 자신의 팀 구성원일 뿐만 아니라 드라이버 관리, 야드 제어 등을 담당하는 사람입니다.

어느 정도까지 데이터 활용 능력과 역량의 결함은 보다 정제된 데이터 제품을 제공함으로써 보완될 수 있습니다. 모든 사람이 필요한 대시보드를 구축할 수 있는 것은 아니며 데이터 분석가가 그들을 위해 구축할 수 있습니다. 문제는 누가 얼마나 활성화할지와 무엇을 얼마나 많이 구축할지 사이의 균형을 찾는 것입니다. 이상적으로, 우리의 데이터 분석가, 과학자 및 엔지니어는 모든 전문 기술을 실제로 필요로 하는 높은 활용도가 높은 작업에 대부분의 시간을 보내고 일부 지원을 통해 다른 사람이 수행할 수 있는 작업에는 덜 사용합니다. 어떤 경우든 이러한 대시보드를 구축하는 사람이 누구이든 팀은 팀이 지원하는 영역이 잘 정의되고 응집력 있고 전체론적인 대시보드 구조를 갖도록 할 책임이 있습니다. 팀의 책임.

이상적으로, 우리의 데이터 분석가, 과학자 및 엔지니어는 모든 전문 기술을 실제로 필요로 하는 높은 활용도가 높은 작업에 대부분의 시간을 보내고 일부 지원을 통해 다른 사람이 수행할 수 있는 작업에는 덜 사용합니다.

데이터 과학자가 구축하는 기계 학습 모델을 운용할 때도 활성화가 중요합니다. 영업 및 수요 예측 모델의 결과를 기반으로 올바른 직원 배치 결정을 내리려면 기본 메커니즘과 모델의 입력, 가정, 강점 및 약점을 잘 이해해야 합니다.

다른 사람 지원: 배송 팀은 배송 사이트 관리 및 차량 개발 및 현지 유통 작업과 같은 운영 팀을 지원하고 있습니다.

우리의 예를 요약하면 배달은 배달 도메인의 데이터에서 가치 창출의 모든 측면을 담당하며 이는 자체 데이터 파이프라인을 실행하는 것 이상으로 확장됩니다. 동일한 설정이 Oda의 다른 모든 제품 팀에 적용되며 본질적으로 분산 소유권이 의미하는 바입니다.

공유 거버넌스: 응집력과 조화를 위한 해결

"모든 데이터"의 소유권을 분산함으로써 우리는 모든 팀이 자율적으로 빠르게 움직일 수 있도록 합니다. 그러나 우리는 팀의 자유와 자율성을 중요하게 생각하지만 데이터 관행의 일부 측면을 조정하는 것도 중요하다고 생각합니다. Looker에서 전체적인 사용자 경험을 제공하고, 동일한 데이터 개념에 동일한 이름을 사용하고, 동일한 데이터 모델링 기술과 코딩 표준을 사용하는 것은 모두 팀 전체에서 해결해야 하는 문제의 예입니다. 팀은 어느 정도 자율적으로 조정하고 조정할 수 있으며 데이터 도메인의 명확한 소유자가 되는 팀의 본질적인 권한 요소도 있습니다(배송은 차량을 "차량"이라고 부르지 않고 예를 들어 "자동차").

공유 도구 및 인프라

유사한 작업을 수행하기 위해 공통 툴링에 정렬해야 하는 많은 이유가 있습니다. 도구를 통합, 운영 및 사용하려면 전문 기술이 필요한 경우가 많기 때문에 일반적으로 도구를 조달하고 관리하는 데 약간의 오버헤드가 있습니다. 기존 도구에 더 많은 사용자 또는 사용 사례를 추가하는 데 드는 한계 비용은 종종 새 도구를 구입하는 것보다 낮으며 일반적인 도구는 내부 이동성도 충족합니다. Oda에서는 데이터 플랫폼 팀이 조직 전체에서 공통적인 도구 요구 사항을 이해하고 이러한 요구 사항을 충족하는 도구를 구매, 구축, 통합 및 운영하는 것이 중요한 임무입니다.

공유 지침 및 모범 사례

팀 간에 유사한 작업을 수행하는 방법에 대한 지침과 문서화된 모범 사례가 있으면 기술적 복잡성을 낮추고 상호 운용성과 사용자 경험을 개선하며 내부 이동성의 장벽을 낮추는 데 도움이 됩니다. 이에 대한 예로는 명명 규칙, 코딩 표준, 기록 데이터 처리 방법, 대시보드에서 사용할 표준 색상 팔레트 등이 있습니다.

지원 및 교육

도구 및 데이터 개념에 대한 기본 교육을 제공함으로써 도구, 방법 및 모범 사례를 잘 이해하고 사용하며 가장 중요한 데이터 개념을 공통적으로 이해하고 있는지 확인합니다. 우리는 정기적인 Looker 교육을 실시하고 임시 지원을 제공하며 실천 커뮤니티를 촉진합니다. 후자의 예로, 실험 도구 제공을 담당하는 플랫폼 팀은 조직 전체의 사람들이 함께 모여 실험에 대해 배우고 일반적인 관행에 동의하는 실험 실행 커뮤니티를 촉진할 책임도 있습니다.

마지막으로, 서로 다른 팀의 데이터 전문가가 함께 모여 배우고, 해킹하고, 협업하고, 관계를 구축하고, 즐기는 강력한 데이터 및 인사이트 규율의 가치를 강조할 가치가 있습니다. 강력한 데이터 커뮤니티를 보유함으로써 일반적인 문제에 대한 공통 솔루션을 찾고, 아이디어와 관행을 교차 수분하고, 복잡한 문제에 대한 다양한 접근 방식을 크라우드 소싱하고, 여러 영역에 걸친 문제를 해결하기 위해 팀을 구성하는 것이 더 쉽습니다. 또한 많은 사람들의 전문성 개발과 인재 유치 및 유지에 중요한 역할을 합니다.

5가지 다른 원칙인 분산 데이터 소유권과 함께 공유 데이터 거버넌스는 Oda에서 데이터 관행을 운영하고 발전시키는 방법에서 핵심적인 역할을 하며 대규모 데이터를 해결하는 가장 강력한 접근 방식입니다. 핵심은 데이터를 기능이 아닌 기능으로 보고 제품 팀에 큰 자유를 주는 것입니다(큰 자유에는 큰 책임이 따릅니다).

이 게시물이 마음에 드셨다면 Oda Product & Tech Medium 블로그에서 자세한 내용을 확인하십시오 . 여기에서 배달 팀이 어떻게 기계 학습 모델을 사용하여 통찰력이 전혀 없는 상태에서 서비스 시간을 예측 하고 Oda의 데이터 과학 플랫폼을 통해 엔드 투 엔드 데이터 과학을 강화하는 방법을 읽을 수 있습니다 .