Apache Presto - przegląd
Analiza danych to proces analizy surowych danych w celu zebrania odpowiednich informacji, które pomogą w podejmowaniu lepszych decyzji. Jest używany przede wszystkim w wielu organizacjach do podejmowania decyzji biznesowych. Cóż, analityka dużych zbiorów danych obejmuje dużą ilość danych, a ten proces jest dość złożony, dlatego firmy stosują różne strategie.
Na przykład Facebook jest jedną z wiodących firm zajmujących się hurtowniami danych i największą na świecie. Dane hurtowni Facebooka są przechowywane w Hadoop na potrzeby obliczeń na dużą skalę. Później, gdy dane w hurtowni rozrosły się do petabajtów, zdecydowali się opracować nowy system z małym opóźnieniem. W roku 2012 członkowie zespołu Facebooka zaprojektowali“Presto” do interaktywnej analizy zapytań, która działałaby szybko nawet z petabajtami danych.
Co to jest Apache Presto?
Apache Presto to rozproszony silnik równoległego wykonywania zapytań, zoptymalizowany pod kątem małych opóźnień i interaktywnej analizy zapytań. Presto z łatwością wykonuje zapytania i skaluje bez przestojów, nawet z gigabajtów do petabajtów.
Pojedyncze zapytanie Presto może przetwarzać dane z wielu źródeł, takich jak HDFS, MySQL, Cassandra, Hive i wiele innych źródeł danych. Presto jest zbudowany w Javie i łatwo integruje się z innymi komponentami infrastruktury danych. Presto to potężne narzędzie, które wdrażają wiodące firmy, takie jak Airbnb, DropBox, Groupon i Netflix.
Presto - funkcje
Presto zawiera następujące funkcje -
- Prosta i rozszerzalna architektura.
- Wtykowe złącza - Presto obsługuje wtykowe złącza w celu dostarczania metadanych i danych do zapytań.
- Wykonywanie potokowe - pozwala uniknąć niepotrzebnych opóźnień we / wy.
- Funkcje zdefiniowane przez użytkownika - analitycy mogą tworzyć niestandardowe funkcje zdefiniowane przez użytkownika w celu łatwej migracji.
- Wektoryzowane przetwarzanie kolumnowe.
Presto - korzyści
Oto lista korzyści, które oferuje Apache Presto -
- Specjalistyczne operacje SQL
- Łatwy w instalacji i debugowaniu
- Prosta abstrakcja pamięci masowej
- Szybko skaluje dane w petabajtach z małym opóźnieniem
Presto - Aplikacje
Presto obsługuje większość dzisiejszych najlepszych aplikacji przemysłowych. Rzućmy okiem na niektóre z godnych uwagi aplikacji.
Facebook- Facebook zbudował Presto na potrzeby analizy danych. Presto z łatwością skaluje dużą prędkość danych.
Teradata- Teradata zapewnia kompleksowe rozwiązania w zakresie analityki Big Data i hurtowni danych. Wkład Teradata w Presto ułatwia większej liczbie firm realizację wszystkich potrzeb analitycznych.
Airbnb- Presto jest integralną częścią infrastruktury danych Airbnb. Cóż, setki pracowników każdego dnia przesyła zapytania dotyczące tej technologii.
Dlaczego Presto?
Presto obsługuje standardowy ANSI SQL, co bardzo ułatwia pracę analitykom danych i programistom. Chociaż jest zbudowany w Javie, pozwala uniknąć typowych problemów z kodem Java związanych z alokacją pamięci i czyszczeniem pamięci. Presto ma architekturę złącza, która jest przyjazna dla Hadoop. Umożliwia łatwe podłączanie systemów plików.
Presto działa na wielu dystrybucjach Hadoop. Ponadto Presto może nawiązać kontakt z platformą Hadoop, aby wysyłać zapytania do Cassandry, relacyjnych baz danych lub innych magazynów danych. Ta wieloplatformowa funkcja analityczna umożliwia użytkownikom Presto wydobycie maksymalnej wartości biznesowej od gigabajtów do petabajtów danych.