Azure Databricks + MagicOrange

Apr 20 2023
.
MagicOrange é alimentado por Databricks - plataforma Unified Cloud Analytics e AI
  1. Arquitetura Lakehouse e plataforma única para Engenharia de Dados, Ciência de Dados, Ingestão de Dados, Machine Learning, Data Warehouse/Lakehouse, Análise de Dados.
  2. Segurança de dados e integração com o Azure AD.
  3. Integração com Power BI usando Azure Databricks Connector.
  4. Arquitetura escalável com clusters e Databricks Runtime, fornecendo o poder do Apache-Spark e eliminando a complexidade para gerenciar qualquer configuração do Spark.
  5. Experiência de desenvolvimento interativo com Databricks Workspace e Notebooks, adicionou o benefício de suporte para várias linguagens como Python, R, SQL, Scala, Java (.jars).
  6. Orquestração com Jobs/Workflows e recentemente usando Delta Live Tables.
  7. Mais importante - Custo Efetivo - Databricks nos permitiu construir e executar uma plataforma Cloud Data and Analytics em escala e manter nosso custo bem abaixo do orçamento. Por exemplo, depois de migrar nossa carga de trabalho ETL de uma ferramenta ETL nativa da nuvem para o Azure Databricks, vimos uma economia de até 400% ao mês apenas em trabalhos ETL. Conseguimos começar pequeno e dimensionar com base em nossas necessidades, pois pagamos apenas pelo que usamos.
  8. O armazenamento e a computação são separados, o que economiza custos de armazenamento, pois os dados estão no formato Delta Lake e são armazenados na forma de arquivos Parquet nos contêineres de armazenamento do Azure Data Lake.
Arquitetura MagicOrange Lakehouse no Microsoft Azure Databricks
  • O Azure Databricks integra perfeitamente uma ampla variedade de fontes de dados que nos ajudaram a criar e dimensionar nossas soluções rapidamente.
  • A interface do usuário do Data Engineering Workspace é amigável ao desenvolvedor, com recursos nativos como notebooks, ambiente de pipeline com trabalhos, fluxos de trabalho, tabelas dinâmicas Delta, agendamento/orquestração e notificações de falha. Isso elimina a necessidade de manter diferentes ferramentas para realizar as mesmas tarefas e permite que a Equipe de Engenharia de Dados mantenha o foco na resolução de tarefas de ETL.
  • Antes do Databricks Lakehouse, pipelines ETL complexos eram desenvolvidos usando ferramentas ETL nativas da nuvem. A migração para o Databricks Lakehouse foi relativamente fácil usando PySpark e Spark-SQL, com suporte para vários idiomas e isso permitiu que nossas equipes de engenharia de dados entregassem requisitos ETL complexos rapidamente.
  • Desde a migração para o Databricks Lakehouse, usando clusters e notebooks escaláveis, as tarefas de ETL estão sendo concluídas mais rapidamente e são mais baratas.
MagicOrange Lakehouse — Implementação do Catálogo Unity
  • MagicOrange é uma oferta SaaS multilocatário. A segurança de dados e o isolamento de dados do cliente são as principais prioridades e, como o Azure Databricks é compatível com vários padrões regulatórios e do setor, incluindo ISO 27001, SOC 2 e HIPAA, ele ajuda a MagicOrange a criar soluções seguras.
  • O Azure Databricks tem forte integração com o Azure AD, o que elimina muitas preocupações de segurança e ajuda a aproveitar o RBAC (controle de acesso baseado em função) para controlar o acesso ao Databricks Workspace e outros recursos.
  • A implementação do Unity-Catalog nos ajudou a tornar o cenário geral de dados mais seguro. O Databricks nos ajudou a remover as limitações anteriores e nos deu a capacidade de atingir nossa política de isolamento de dados de desenvolvimento e produção.
  • Os recursos do Catálogo Unity, como local de armazenamento externo e suporte para instruções SQL GRANT, ajudaram na implementação de um melhor controle de acesso por Catálogo de Clientes.
  • Existem recursos de segurança prontos para uso, como isolamento de rede, criptografia de dados e uma variedade de recursos de segurança que nos ajudaram a proteger nossos dados e atender aos nossos requisitos de segurança.
  • Os Databricks SQL Warehouses/Endpoints podem ser facilmente integrados ao Power BI usando o Azure Databricks Connector e suportam o modo Direct Query para Delta Lake Data, o que nos permitiu criar relatórios e painéis do Power BI voltados para o cliente.
  • SQL Warehouses sem servidor com Photon são imensamente poderosos e nos ajudam a visualizar grandes conjuntos de dados (mais de 100 milhões de linhas) no Power BI.
  • Os painéis SQL do Databricks ajudaram nossos analistas de dados e equipe de sucesso do cliente a analisar rapidamente conjuntos de dados muito grandes, escrevendo consultas SQL simples e criando painéis dentro do Databricks.
MagicOrange Lakehouse — Implementação DeltaSharing
  • Delta Sharing é um padrão aberto que usamos para compartilhar dados com segurança com consumidores externos e internos de sua fonte original.
  • O Delta Sharing nos ajudou a democratizar os dados e compartilhar dados externamente e com segurança com os clientes MagicOrange. Como parte da integração do cliente, cada cliente recebe um compartilhamento dedicado e um link de destinatário.
  • Os conectores Delta Sharing são suportados em ferramentas populares de BI, o que eliminou a necessidade de construir algo internamente para compartilhar dados com segurança.
  • A MagicOrange é uma empresa orientada por dados, sempre tentando criar soluções inovadoras para ajudar nossos clientes a obter informações sobre seus dados complexos. Como parte do roteiro do produto MagicOrange, há planos para criar produtos de dados baseados em ML/AI que podem permitir que os clientes obtenham facilmente mais insights de dados complexos. O uso da plataforma Databricks Lakehouse ajudará a MagicOrange a criar e dimensionar nossa prática de ML/AI.
  • Planejamos aproveitar o Databricks Lakehouse Architecture e o Dolly 2.0 para criar produtos de dados baseados em ML/AI, que podem agregar mais valor aos clientes MagicOrange.
  • Neste blog, compartilhei algumas ideias sobre como a implementação da arquitetura Lakehouse ajudou a MagicOrange a criar uma plataforma de análise e dados escalonável. Trabalhando como Arquiteto de Nuvem e Arquiteto de Dados, considero o Azure Databricks muito econômico, pois nos permitiu começar com um orçamento pequeno e escalar com muitos recursos. Na minha perspectiva, o Databricks pode ajudar a atender a maioria dos requisitos de dados, análises e IA da organização usando uma única plataforma unificada, o que não poderíamos alcançar em outros data warehouses em nuvem.
  • Nos últimos anos, vi o Databricks evoluir - adicionando novos recursos e conceitos, o que o torna único neste espaço. Também há um esforço contínuo da equipe Databricks para melhorar sempre. Existe um ótimo sistema de suporte dos Databricks Solution Architects, que trazem conhecimento e melhores práticas, acelerando a implementação do Databricks em seu provedor de nuvem preferido.
  • Há uma tonelada de documentação disponível no Databricks e na Microsoft para tentar implementar qualquer recurso mencionado neste blog, recomendo que você verifique esses documentos se estiver interessado em entender e implementar o Databricks em sua organização.