Azure Databricks + MagicOrange

Apr 20 2023
.
MagicOrange jest zasilany przez Databricks — platformę Unified Cloud Analytics i AI
  1. Architektura Lakehouse i pojedyncza platforma do inżynierii danych, nauki o danych, pozyskiwania danych, uczenia maszynowego, hurtowni danych/Lakehouse, analizy danych.
  2. Bezpieczeństwo danych i integracja z usługą Azure AD.
  3. Integracja z Power BI przy użyciu Azure Databricks Connector.
  4. Skalowalna architektura z klastrami i Databricks Runtime, zapewniająca moc Apache-Spark i eliminująca złożoność zarządzania dowolną konfiguracją Spark.
  5. Interaktywne środowisko programistyczne z Databricks Workspace i Notebooks dodało korzyść obsługi wielu języków, takich jak Python, R, SQL, Scala, Java (.jars).
  6. Orkiestracja z zadaniami/przepływami pracy, a ostatnio przy użyciu Delta Live Tables.
  7. Co najważniejsze — efektywność kosztowa — Datakostki umożliwiły nam zbudowanie i uruchomienie platformy Cloud Data and Analytics na dużą skalę i utrzymanie kosztów znacznie poniżej budżetu. Na przykład po migracji naszego obciążenia ETL z natywnego narzędzia ETL w chmurze do Azure Databricks zaobserwowaliśmy oszczędności do 400% miesięcznie na samych zadaniach ETL. Mogliśmy zacząć na małą skalę w oparciu o nasze potrzeby, ponieważ płacimy tylko za to, czego używamy.
  8. Magazyn i obliczenia są oddzielne, co pozwala zaoszczędzić na kosztach magazynowania, ponieważ dane są w formacie Delta Lake i są przechowywane w postaci plików Parquet w kontenerach Azure Data Lake Storage.
Architektura MagicOrange Lakehouse na Microsoft Azure Databricks
  • Usługa Azure Databricks bezproblemowo integruje szeroką gamę źródeł danych, co pomogło nam szybko tworzyć i skalować nasze rozwiązania.
  • Interfejs Data Engineering Workspace jest przyjazny dla programistów, z natywnymi funkcjami, takimi jak notatniki, środowisko potokowe z zadaniami, przepływami pracy, tabelami Delta Live Tables, planowaniem/aranżacją i powiadomieniami o błędach. Eliminuje to potrzebę utrzymywania różnych narzędzi do wykonywania tych samych zadań i umożliwia zespołowi inżynierii danych skupienie się na rozwiązywaniu zadań ETL.
  • Przed usługą Databricks Lakehouse złożone potoki ETL były opracowywane przy użyciu natywnych narzędzi ETL w chmurze. Migracja do Databricks Lakehouse była stosunkowo łatwa przy użyciu PySpark i Spark-SQL, z obsługą wielu języków, co umożliwiło naszym zespołom inżynierii danych szybkie dostarczanie złożonych wymagań ETL.
  • Od czasu migracji do usługi Databricks Lakehouse przy użyciu skalowalnych klastrów i notesów zadania ETL wykonują się szybciej i są tańsze.
MagicOrange Lakehouse — Implementacja Unity Catalog
  • MagicOrange to wielodostępna oferta SaaS. Bezpieczeństwo danych i izolacja danych klientów to najważniejsze priorytety, a ponieważ Azure Databricks jest zgodny z kilkoma standardami branżowymi i regulacyjnymi, w tym ISO 27001, SOC 2 i HIPAA, pomaga firmie MagicOrange w tworzeniu bezpiecznych rozwiązań.
  • Usługa Azure Databricks ma silną integrację z usługą Azure AD, co eliminuje wiele problemów związanych z bezpieczeństwem i pomaga wykorzystać RBAC (Kontrola dostępu oparta na rolach) do kontrolowania dostępu do obszaru roboczego Datakostki i innych zasobów.
  • Wdrożenie Unity-Catalog pomogło nam zwiększyć bezpieczeństwo całego środowiska danych. Datakostki pomogły nam usunąć wcześniejsze ograniczenia i dały nam możliwość osiągnięcia naszych zasad izolacji danych deweloperskich i produkcyjnych.
  • Funkcje Unity Catalog, takie jak zewnętrzna lokalizacja magazynu i obsługa instrukcji SQL GRANT, pomogły we wdrożeniu lepszej kontroli dostępu do katalogu klienta.
  • Istnieją gotowe funkcje bezpieczeństwa, takie jak izolacja sieci, szyfrowanie danych oraz szereg funkcji bezpieczeństwa, które pomogły nam chronić nasze dane i spełnić nasze wymagania dotyczące bezpieczeństwa.
  • Databricks SQL Warehouses/Endpoints można łatwo zintegrować z usługą Power BI przy użyciu łącznika Azure Databricks i obsługiwać tryb zapytań bezpośrednich do Delta Lake Data, co umożliwiło nam tworzenie raportów i pulpitów nawigacyjnych usługi Power BI przeznaczonych dla klientów.
  • Bezserwerowe magazyny SQL z Photonem są niezwykle wydajne i pomagają nam wizualizować duże zbiory danych (ponad 100 milionów wierszy) w usłudze Power BI.
  • Pulpity nawigacyjne SQL Datakostki pomogły naszemu zespołowi analityków danych i zespołu ds. sukcesu klienta szybko analizować bardzo duże zestawy danych, pisząc proste zapytania SQL i budując pulpity nawigacyjne w kostkach danych.
MagicOrange Lakehouse — implementacja DeltaSharing
  • Delta Sharing to otwarty standard, którego używamy do bezpiecznego udostępniania danych konsumentom zewnętrznym i wewnętrznym z ich pierwotnego źródła.
  • Delta Sharing pomogła nam zdemokratyzować dane i bezpiecznie udostępniać je na zewnątrz klientom MagicOrange. W ramach onboardingu każdy klient otrzymuje dedykowany link udostępniania i odbiorcy.
  • Złącza Delta Sharing są obsługiwane w popularnych narzędziach BI, co wyeliminowało potrzebę samodzielnego budowania czegoś w celu bezpiecznego udostępniania danych.
  • MagicOrange to firma oparta na danych, zawsze stara się tworzyć innowacyjne rozwiązania, aby pomóc naszym klientom uzyskać wgląd w ich złożone dane. W ramach planu działania produktu MagicOrange planowane jest zbudowanie produktów opartych na danych ML/AI, które umożliwią klientom łatwe wyciąganie większej ilości informacji ze złożonych danych. Korzystanie z Databricks Lakehouse Platform pomoże MagicOrange zbudować i skalować naszą praktykę ML/AI.
  • Planujemy wykorzystać Databricks Lakehouse Architecture i Dolly 2.0 do tworzenia produktów danych opartych na ML/AI, które mogą przynieść większą wartość klientom MagicOrange.
  • Na tym blogu podzieliłem się spostrzeżeniami na temat tego, jak wdrożenie architektury Lakehouse pomogło firmie MagicOrange zbudować skalowalną platformę danych i analiz. Pracując jako architekt chmury i architekt danych, uważam, że usługa Azure Databricks jest bardzo opłacalna, ponieważ pozwoliła nam zacząć z niewielkim budżetem i skalować z wieloma funkcjami. Z mojej perspektywy Datakostki mogą pomóc w spełnieniu większości wymagań organizacji w zakresie danych, analiz i sztucznej inteligencji przy użyciu jednej ujednoliconej platformy, czego nie moglibyśmy osiągnąć w przypadku innych hurtowni danych w chmurze.
  • W ciągu ostatnich kilku lat obserwowałem ewolucję Datakostek — dodając nowe funkcje i koncepcje, co czyni je wyjątkowymi w tej przestrzeni. Istnieje również ciągły wysiłek ze strony zespołu Datakostki, aby zawsze ulepszać. Istnieje świetny system wsparcia Databricks Solution Architects, którzy wnoszą wiedzę i najlepsze praktyki, przyspieszając wdrażanie Databricks u preferowanego dostawcy chmury.
  • Dostępnych jest mnóstwo dokumentacji dotyczącej kostek danych i firmy Microsoft , aby spróbować wdrożyć dowolną funkcję wymienioną w tym blogu. Polecam zapoznanie się z tymi dokumentami, jeśli chcesz zrozumieć i wdrożyć kosteczki danych w swojej organizacji.