Azure Databricks + MagicOrange
Apr 20 2023
.
- Архитектура Lakehouse и единая платформа для инженерии данных, науки о данных, приема данных, машинного обучения, хранилища данных/Lakehouse, аналитики данных.
- Безопасность данных и интеграция с Azure AD.
- Интеграция с Power BI с помощью Azure Databricks Connector.
- Масштабируемая архитектура с кластерами и средой выполнения Databricks, обеспечивающая возможности Apache-Spark и упрощающая управление любой конфигурацией Spark.
- Интерактивный опыт разработки с Databricks Workspace и Notebooks добавил поддержку нескольких языков, таких как Python, R, SQL, Scala, Java (.jars).
- Оркестрация с заданиями/рабочими процессами и недавнее использование таблиц Delta Live Tables.
- Самое главное — рентабельность . Databricks позволили нам создать и запустить платформу облачных данных и аналитики в нужном масштабе, сохранив расходы в рамках бюджета. Например, после переноса нашей рабочей нагрузки ETL с собственного облачного инструмента ETL на Azure Databricks мы увидели экономию до 400 % в месяц только на заданиях ETL. Мы смогли начать с малого и масштабироваться в зависимости от наших потребностей, поскольку мы платим только за то, что используем.
- Хранилище и вычислительные ресурсы разделены, что снижает затраты на хранение, поскольку данные представлены в формате Delta Lake и хранятся в виде файлов Parquet в контейнерах Azure Data Lake Storage.
- Azure Databricks легко интегрирует широкий спектр источников данных, что помогает нам быстро создавать и масштабировать наши решения.
- Пользовательский интерфейс Data Engineering Workspace удобен для разработчиков и включает в себя встроенные функции, такие как записные книжки, конвейерная среда с заданиями, рабочими процессами, таблицами Delta Live, планированием/оркестрацией и уведомлениями об ошибках. Это избавляет от необходимости поддерживать разные инструменты для выполнения одних и тех же задач и позволяет группе инженеров по обработке данных сосредоточиться на решении задач ETL.
- До Databricks Lakehouse сложные конвейеры ETL разрабатывались с использованием собственных облачных инструментов ETL. Миграция на Databricks Lakehouse была относительно простой с использованием PySpark и Spark-SQL с поддержкой нескольких языков, что позволило нашим командам по разработке данных быстро выполнить сложные требования ETL.
- После перехода на Databricks Lakehouse с использованием масштабируемых кластеров и записных книжек задачи ETL выполняются быстрее и обходятся дешевле.
- MagicOrange — это многопользовательское предложение SaaS. Безопасность данных и изоляция данных клиентов являются главными приоритетами, а поскольку Azure Databricks соответствует нескольким отраслевым и нормативным стандартам, включая ISO 27001, SOC 2 и HIPAA, это помогает MagicOrange создавать безопасные решения.
- Azure Databricks имеет тесную интеграцию с Azure AD, что устраняет многие проблемы безопасности и помогает использовать RBAC (управление доступом на основе ролей) для управления доступом к Databricks Workspace и другим ресурсам.
- Внедрение Unity-Catalog помогло нам сделать общий ландшафт данных более безопасным. Блоки данных помогли нам снять прежние ограничения и дали нам возможность реализовать нашу политику изоляции данных разработки и производства.
- Функции каталога Unity, такие как внешнее хранилище и поддержка операторов SQL GRANT, помогли реализовать лучший контроль доступа для каждого каталога клиентов.
- Существуют готовые функции безопасности, такие как сетевая изоляция, шифрование данных и ряд функций безопасности, которые помогли нам защитить наши данные и удовлетворить наши требования безопасности.
- Хранилища/конечные точки Databricks SQL можно легко интегрировать с Power BI с помощью Azure Databricks Connector и поддерживать режим прямого запроса к данным Delta Lake, что позволило нам создавать ориентированные на клиентов отчеты и информационные панели Power BI.
- Бессерверные хранилища SQL с Photon обладают невероятной мощностью и помогают нам визуализировать большие наборы данных (более 100 миллионов строк) в Power BI.
- Панели мониторинга SQL Databricks помогли нашей команде аналитиков данных и отдела по работе с клиентами быстро проанализировать очень большие наборы данных, написав простые SQL-запросы и создав панели мониторинга внутри Databricks.
- Delta Sharing — это открытый стандарт, который мы используем для безопасного обмена данными с внешними и внутренними потребителями из их исходного источника.
- Delta Sharing помогла нам демократизировать данные и безопасно обмениваться данными с клиентами MagicOrange извне. В рамках адаптации клиентов каждый клиент получает выделенную ссылку для общего доступа и получателя.
- Коннекторы Delta Sharing поддерживаются в популярных инструментах бизнес-аналитики, что избавляет от необходимости самостоятельно создавать что-то для безопасного обмена данными.
- MagicOrange — это компания, ориентированная на данные, которая всегда пытается создавать инновационные решения, чтобы помочь нашим клиентам получить представление о своих сложных данных. В рамках дорожной карты продуктов MagicOrange планируется создание продуктов данных на основе ML/AI, которые позволят клиентам легко извлекать больше информации из сложных данных. Использование платформы Databricks Lakehouse поможет MagicOrange построить и масштабировать нашу практику ML/AI.
- Мы планируем использовать архитектуру Databricks Lakehouse Architecture и Dolly 2.0 для создания продуктов данных на основе ML/AI, которые могут принести больше пользы клиентам MagicOrange.
- В этом блоге я поделился некоторыми соображениями о том, как внедрение архитектуры Lakehouse помогло MagicOrange создать масштабируемую платформу данных и аналитики. Работая в качестве облачного архитектора и архитектора данных, я считаю Azure Databricks очень рентабельным, поскольку это позволило нам начать с небольшого бюджета и масштабировать множество функций. С моей точки зрения, Databricks может помочь удовлетворить большинство требований организации к данным, аналитике и искусственному интеллекту, используя единую унифицированную платформу, чего мы не могли достичь в других облачных хранилищах данных.
- За последние несколько лет я наблюдал за развитием Databricks — добавлением новых функций и концепций, что делает его уникальным в этой области. Команда Databricks также постоянно работает над улучшением. Существует отличная система поддержки от Databricks Solution Architects, которые делятся своим опытом и передовыми методами, ускоряя внедрение Databricks в предпочитаемом вами облачном провайдере.
- В Databricks и Microsoft доступно множество документации , позволяющей попробовать реализовать любую функцию, упомянутую в этом блоге. Я рекомендую вам ознакомиться с этими документами, если вы хотите понять и внедрить Databricks в своей организации.

![В любом случае, что такое связанный список? [Часть 1]](https://post.nghiatu.com/assets/images/m/max/724/1*Xokk6XOjWyIGCBujkJsCzQ.jpeg)



































