Azure Databricks + MagicOrange

Apr 20 2023
.
MagicOrange работает на базе Databricks — единой платформы облачной аналитики и искусственного интеллекта.
  1. Архитектура Lakehouse и единая платформа для инженерии данных, науки о данных, приема данных, машинного обучения, хранилища данных/Lakehouse, аналитики данных.
  2. Безопасность данных и интеграция с Azure AD.
  3. Интеграция с Power BI с помощью Azure Databricks Connector.
  4. Масштабируемая архитектура с кластерами и средой выполнения Databricks, обеспечивающая возможности Apache-Spark и упрощающая управление любой конфигурацией Spark.
  5. Интерактивный опыт разработки с Databricks Workspace и Notebooks добавил поддержку нескольких языков, таких как Python, R, SQL, Scala, Java (.jars).
  6. Оркестрация с заданиями/рабочими процессами и недавнее использование таблиц Delta Live Tables.
  7. Самое главное — рентабельность . Databricks позволили нам создать и запустить платформу облачных данных и аналитики в нужном масштабе, сохранив расходы в рамках бюджета. Например, после переноса нашей рабочей нагрузки ETL с собственного облачного инструмента ETL на Azure Databricks мы увидели экономию до 400 % в месяц только на заданиях ETL. Мы смогли начать с малого и масштабироваться в зависимости от наших потребностей, поскольку мы платим только за то, что используем.
  8. Хранилище и вычислительные ресурсы разделены, что снижает затраты на хранение, поскольку данные представлены в формате Delta Lake и хранятся в виде файлов Parquet в контейнерах Azure Data Lake Storage.
Архитектура MagicOrange Lakehouse на Microsoft Azure Databricks
  • Azure Databricks легко интегрирует широкий спектр источников данных, что помогает нам быстро создавать и масштабировать наши решения.
  • Пользовательский интерфейс Data Engineering Workspace удобен для разработчиков и включает в себя встроенные функции, такие как записные книжки, конвейерная среда с заданиями, рабочими процессами, таблицами Delta Live, планированием/оркестрацией и уведомлениями об ошибках. Это избавляет от необходимости поддерживать разные инструменты для выполнения одних и тех же задач и позволяет группе инженеров по обработке данных сосредоточиться на решении задач ETL.
  • До Databricks Lakehouse сложные конвейеры ETL разрабатывались с использованием собственных облачных инструментов ETL. Миграция на Databricks Lakehouse была относительно простой с использованием PySpark и Spark-SQL с поддержкой нескольких языков, что позволило нашим командам по разработке данных быстро выполнить сложные требования ETL.
  • После перехода на Databricks Lakehouse с использованием масштабируемых кластеров и записных книжек задачи ETL выполняются быстрее и обходятся дешевле.
MagicOrange Lakehouse — реализация каталога Unity
  • MagicOrange — это многопользовательское предложение SaaS. Безопасность данных и изоляция данных клиентов являются главными приоритетами, а поскольку Azure Databricks соответствует нескольким отраслевым и нормативным стандартам, включая ISO 27001, SOC 2 и HIPAA, это помогает MagicOrange создавать безопасные решения.
  • Azure Databricks имеет тесную интеграцию с Azure AD, что устраняет многие проблемы безопасности и помогает использовать RBAC (управление доступом на основе ролей) для управления доступом к Databricks Workspace и другим ресурсам.
  • Внедрение Unity-Catalog помогло нам сделать общий ландшафт данных более безопасным. Блоки данных помогли нам снять прежние ограничения и дали нам возможность реализовать нашу политику изоляции данных разработки и производства.
  • Функции каталога Unity, такие как внешнее хранилище и поддержка операторов SQL GRANT, помогли реализовать лучший контроль доступа для каждого каталога клиентов.
  • Существуют готовые функции безопасности, такие как сетевая изоляция, шифрование данных и ряд функций безопасности, которые помогли нам защитить наши данные и удовлетворить наши требования безопасности.
  • Хранилища/конечные точки Databricks SQL можно легко интегрировать с Power BI с помощью Azure Databricks Connector и поддерживать режим прямого запроса к данным Delta Lake, что позволило нам создавать ориентированные на клиентов отчеты и информационные панели Power BI.
  • Бессерверные хранилища SQL с Photon обладают невероятной мощностью и помогают нам визуализировать большие наборы данных (более 100 миллионов строк) в Power BI.
  • Панели мониторинга SQL Databricks помогли нашей команде аналитиков данных и отдела по работе с клиентами быстро проанализировать очень большие наборы данных, написав простые SQL-запросы и создав панели мониторинга внутри Databricks.
MagicOrange Lakehouse — реализация DeltaSharing
  • Delta Sharing — это открытый стандарт, который мы используем для безопасного обмена данными с внешними и внутренними потребителями из их исходного источника.
  • Delta Sharing помогла нам демократизировать данные и безопасно обмениваться данными с клиентами MagicOrange извне. В рамках адаптации клиентов каждый клиент получает выделенную ссылку для общего доступа и получателя.
  • Коннекторы Delta Sharing поддерживаются в популярных инструментах бизнес-аналитики, что избавляет от необходимости самостоятельно создавать что-то для безопасного обмена данными.
  • MagicOrange — это компания, ориентированная на данные, которая всегда пытается создавать инновационные решения, чтобы помочь нашим клиентам получить представление о своих сложных данных. В рамках дорожной карты продуктов MagicOrange планируется создание продуктов данных на основе ML/AI, которые позволят клиентам легко извлекать больше информации из сложных данных. Использование платформы Databricks Lakehouse поможет MagicOrange построить и масштабировать нашу практику ML/AI.
  • Мы планируем использовать архитектуру Databricks Lakehouse Architecture и Dolly 2.0 для создания продуктов данных на основе ML/AI, которые могут принести больше пользы клиентам MagicOrange.
  • В этом блоге я поделился некоторыми соображениями о том, как внедрение архитектуры Lakehouse помогло MagicOrange создать масштабируемую платформу данных и аналитики. Работая в качестве облачного архитектора и архитектора данных, я считаю Azure Databricks очень рентабельным, поскольку это позволило нам начать с небольшого бюджета и масштабировать множество функций. С моей точки зрения, Databricks может помочь удовлетворить большинство требований организации к данным, аналитике и искусственному интеллекту, используя единую унифицированную платформу, чего мы не могли достичь в других облачных хранилищах данных.
  • За последние несколько лет я наблюдал за развитием Databricks — добавлением новых функций и концепций, что делает его уникальным в этой области. Команда Databricks также постоянно работает над улучшением. Существует отличная система поддержки от Databricks Solution Architects, которые делятся своим опытом и передовыми методами, ускоряя внедрение Databricks в предпочитаемом вами облачном провайдере.
  • В Databricks и Microsoft доступно множество документации , позволяющей попробовать реализовать любую функцию, упомянутую в этом блоге. Я рекомендую вам ознакомиться с этими документами, если вы хотите понять и внедрить Databricks в своей организации.