Экосистема данных @ CARS24 — обзор
Основная группа данных в CARS24 — это около 95 сильных компаний, поддерживающих бизнес в Индии, Австралии , на Ближнем Востоке и в Юго-Восточной Азии, которые тесно сотрудничают с заинтересованными сторонами в сфере бизнеса, продуктов, маркетинга и технологий. Кроме того, у нас также есть около 25 специалистов по данным в финтех- подразделении CARS24 , независимом кредитном бизнесе, лицензированном NBFC.
Этот отчет является попыткой ответить на часто задаваемые вопросы (особенно от друзей / лидеров индийского стартап-сообщества) о том, как функция данных в настоящее время структурирована в CARS24, о том, что лежит в основе этого, а также о плюсах и ограничениях того же самого.
Отказ от ответственности: Мысли, которыми мы делимся, являются личными и специфичными для текущего контекста CARS24, которые могут или не могут относиться к другим организациям и потенциально могут развиваться и для CARS24.
Роль и организационная структура группы обработки данных
Коснемся следующих пунктов в том же порядке — ожидаемая роль от функции данных в бизнесе; различные способы организации группы данных; роль инженеров данных и ML Ops; идеальные способы работы с другими функциями.
Роль функции данных
Это во многом зависит от грамотности организации в отношении данных, от зрелости и возможностей функции данных до подхода к принятию решений бизнес-лидерами.
Согласно моему опыту и знаниям, ниже показано, как роль группы данных развивается в организации.

Базовые информационные панели и визуализация ключевых показателей эффективности — это очевидный первый шаг, за которым следует возможность более глубокого погружения для индивидуального анализа и анализа .
По мере развития экосистемы данных более активное использование статистики и науки о данных дает бизнесу возможности прогнозирования и прогнозирования . Это также время, когда обычно внутренняя инфраструктура данных (регистрация, конвейеры, база данных / хранилище и т. д.) становится еще более оптимизированной и усиленной. Функция данных развивается дальше, когда она переходит от простого прогнозирования к предписанию следующих шагов, поскольку точность моделей улучшается, а их влияние на ключевые показатели эффективности становится более ясным.
В конце концов, когда решения DS/ML будут беспрепятственно подключены к производственной экосистеме, функция обработки данных может действительно владеть постановкой задачи от начала до конца, а также владеть ветвью «исполнения».
Централизованный, децентрализованный или гибридный?
Централизованный и децентрализованный — это понятные термины, а гибрид — где-то посередине! Много было написано о плюсах и минусах централизованной и децентрализованной командных структур, и постепенно все, кажется, соглашаются с « гибридом » как с правильным ответом — или мы могли бы сказать «простой» ответ, пока мы не начнем пытаться найти эту тонкую грань. что нужно нарисовать для идеальных способов работы / относительной расстановки приоритетов и т. д.

Принято считать, что любая техническая/нишевая экспертиза , которая не обязательно требует глубокого понимания предметной области и может быть перекрестно использована , должна развиваться как центральная горизонтальная возможность (Center of Excellence ) , например Data/ML Engg, решения для продуктов, ориентированных на DS.

В случае гибридной структуры децентрализованные модули должны быть согласованы с бизнес-функцией или центральной командой в зависимости от того, где больше рычагов, т. е. если команда аналитики / понимания получает больше рычагов за счет синергии с центральной командой DS / ML, они должны быть согласованы с центральная группа данных и наоборот.
Как думать об инженерии данных/хранении данных?
Инжиниринг данных обычно связан с технической функцией, но есть также примеры обработки данных с более широкой функцией данных, первая обеспечивает близость к источнику данных и технологической / производственной системе, а позже обеспечивает превосходное соответствие конечному потребителю данных (т. е. бизнесу / продукту). аналитики, специалисты по данным и т. д.).
На CARS24 практика обработки и хранения данных была официально начата техническим директором еще в начале 2019 года. Некоторые из этих обязанностей теперь связаны с функцией данных.
- Есть пара инженеров данных, ориентированных на технологии, которые занимаются преобразованием данных и приемом потока кликов в производственной экосистеме, в то время как есть пара инженеров, ориентированных на данные, отвечающих за управляемые / настраиваемые конвейеры, оптимизацию хранилища, процедуры ELT, контроль доступа к данным . и внутренняя инфра панелей мониторинга .
Что там с MLOps/Engg?
Многие организации либо ожидают, что специалисты по обработке и анализу данных освоят навыки готового развертывания, либо ожидают, что DevOps поймут нюансы рабочих процессов машинного обучения, что относительно нереально . Это причина, по которой большинство проектов машинного обучения значительно задерживаются в запуске или, что еще хуже, никогда не увидят свет.
В отличие от рабочих процессов разработки программного обеспечения, рабочие процессы ML нестандартны (и быстро развиваются), они имеют объекты модели, файлы данных, форматы моделей и их матрицу совместимости с подчеркнутой инфра. Существует также необходимость мониторинга производительности модели, использования ресурсов, дрейфа модели и данных. Следовательно, ML Engg/Ops превратился в отдельный и очень важный набор навыков, охватывающий области технологий и науки о данных.
В CARS24 у нас есть ~3 участника сильной практики ML Ops в основной экосистеме данных, которая работает как горизонтальный COE, помогая всем модулям DS эффективно взаимодействовать с более крупной производственной экосистемой. Эта команда думает, что «сначала engg», и имеет прочные связи с DevOps и пунктирной линией с техническим руководством.
Более глубокое погружение в организационную структуру данных CARS24
Как организация, мы решили работать в гибридной структуре, в которой Data Engg / ML Engg , маркетинговая аналитика и ориентированные на продукт модули DS (например, Magneto (рекомендации конечных покупателей / алгоритмы сортировки), Auctoris (рекомендации дилеров)) работают как глобальные горизонтальные возможности . / СЕ ; в то время как бизнес-аналитики и чувствительные к бизнесу модули DS, например Profecto (система ценообразования) и Fortem (система мошенничества), работают децентрализованно и очень тесно интегрированы с соответствующими бизнес-функциями.
Текущая экосистема данных в CARS24 находится под сильным влиянием нашей философии создания « ML для бизнеса », при этом команда специалистов по данным оказывает прямое и измеримое влияние на коммерческие KPI по сравнению с построением изолированно.
Ниже приведен общий обзор того, как выглядит экосистема данных CARS24, и более подробная иллюстрация того, как они взаимодействуют с бизнесом, маркетингом, продуктами и технологиями для бизнеса в Индии. Аналогичное взаимодействие повторяется в других регионах.

Если мы углубимся, строительные блоки этой структуры представляют собой «модули» / естественные рабочие группы, которые сосредоточены на заданной постановке проблемы, например, воронка продаж, конверсия продавца, взаимодействие с дилером, эффективность операций по ремонту и т. д.
В типичной «идеальной» группе есть специальные люди из бизнеса, продуктов, данных и технологий, которые несут ответственность за обеспечение согласованности ключевых показателей эффективности / целей группы, относительных приоритетов и сроков различных проектов, а также за установление идеальных способов работы в группе.

Как это принято в большинстве организаций, менеджеры по продуктам следят за тем, чтобы выделенные технические специалисты и технические руководители (обычно распределенные по нескольким модулям) согласовывались с BRD / PRD, сроками и результатами.
- Не сильно отличаясь от того, как обычно работают «Продукт — Технология» , мы также установили отношения « Ведущий специалист по аналитике — Наука о данных» на CARS24, хотя и немного менее формальные. Большинство ведущих аналитиков в CARS24 имеют некоторый предыдущий опыт работы с наукой о данных / расширенной статистикой, прежде чем они решили углубиться в бизнес / коммерческую сторону. Наличие их в качестве интерфейса между DS и бизнесом помогает нам создать очень продуктивный беспроигрышный ответ для всех.
Специалисты по данным сосредотачиваются на формулировках проблем и ключевых показателях эффективности, которые действительно важны для бизнеса, где аналитики могут играть роль «контролера» перед учеными-«создателями».
Теперь, хотя все эти модули являются относительно автономными единицами и могут «потенциально» работать децентрализованно, есть очевидные преимущества обеспечения связи специалистов по данным из модулей через центральную экосистему, включая платформу данных (хранилище данных / ML engg) — это связано с подход «гибридной структуры, подключенной к центральной команде», рассмотренный в предыдущем разделе.
На приведенном ниже рисунке показано, как экосистема данных подключена к различным модулям и по-прежнему тесно взаимосвязана с платформой данных, предоставляющей возможности обработки данных и машинного обучения.

Заключительные мысли…
Я полагаю, что приведенная выше запись дает хороший общий обзор того, как мы думаем об организации данных на CARS24. Мы все еще учимся, разучиваемся и переучиваемся по мере нашего путешествия!
Это быстро развивающийся мир. И с экспоненциальным технологическим прогрессом, наблюдаемым на платформах данных (усовершенствованные структуры данных, механизмы хранения и доступа к данным), AutoML / объяснимый ИИ (XAI) становится все более реальным, LLM вступают в силу и, вероятно, радикально изменят интерфейсы запросов данных, и грядущие инструменты «Инфра как код» на инженерном фронте машинного обучения, мы можем ожидать, что в ближайшем будущем мы увидим очень разные типы организационных структур данных. Новые способы делать старые вещи — быстрее/лучше/проще.
Однако, пока мы не доберемся до этого, нам всем нужно найти свои собственные ответы, которые работают для наших конкретных ограничений и контекста. Продолжаем строить!