Apache Presto - przegląd

Analiza danych to proces analizy surowych danych w celu zebrania odpowiednich informacji, które pomogą w podejmowaniu lepszych decyzji. Jest używany przede wszystkim w wielu organizacjach do podejmowania decyzji biznesowych. Cóż, analityka dużych zbiorów danych obejmuje dużą ilość danych, a ten proces jest dość złożony, dlatego firmy stosują różne strategie.

Na przykład Facebook jest jedną z wiodących firm zajmujących się hurtowniami danych i największą na świecie. Dane hurtowni Facebooka są przechowywane w Hadoop na potrzeby obliczeń na dużą skalę. Później, gdy dane w hurtowni rozrosły się do petabajtów, zdecydowali się opracować nowy system z małym opóźnieniem. W roku 2012 członkowie zespołu Facebooka zaprojektowali“Presto” do interaktywnej analizy zapytań, która działałaby szybko nawet z petabajtami danych.

Co to jest Apache Presto?

Apache Presto to rozproszony silnik równoległego wykonywania zapytań, zoptymalizowany pod kątem małych opóźnień i interaktywnej analizy zapytań. Presto z łatwością wykonuje zapytania i skaluje bez przestojów, nawet z gigabajtów do petabajtów.

Pojedyncze zapytanie Presto może przetwarzać dane z wielu źródeł, takich jak HDFS, MySQL, Cassandra, Hive i wiele innych źródeł danych. Presto jest zbudowany w Javie i łatwo integruje się z innymi komponentami infrastruktury danych. Presto to potężne narzędzie, które wdrażają wiodące firmy, takie jak Airbnb, DropBox, Groupon i Netflix.

Presto - funkcje

Presto zawiera następujące funkcje -

Prosta i rozszerzalna architektura.
Wtykowe złącza - Presto obsługuje wtykowe złącza w celu dostarczania metadanych i danych do zapytań.
Wykonywanie potokowe - pozwala uniknąć niepotrzebnych opóźnień we / wy.
Funkcje zdefiniowane przez użytkownika - analitycy mogą tworzyć niestandardowe funkcje zdefiniowane przez użytkownika w celu łatwej migracji.
Wektoryzowane przetwarzanie kolumnowe.

Presto - korzyści

Oto lista korzyści, które oferuje Apache Presto -

Specjalistyczne operacje SQL
Łatwy w instalacji i debugowaniu
Prosta abstrakcja pamięci masowej
Szybko skaluje dane w petabajtach z małym opóźnieniem

Presto - Aplikacje

Presto obsługuje większość dzisiejszych najlepszych aplikacji przemysłowych. Rzućmy okiem na niektóre z godnych uwagi aplikacji.

Facebook- Facebook zbudował Presto na potrzeby analizy danych. Presto z łatwością skaluje dużą prędkość danych.
Teradata- Teradata zapewnia kompleksowe rozwiązania w zakresie analityki Big Data i hurtowni danych. Wkład Teradata w Presto ułatwia większej liczbie firm realizację wszystkich potrzeb analitycznych.
Airbnb- Presto jest integralną częścią infrastruktury danych Airbnb. Cóż, setki pracowników każdego dnia przesyła zapytania dotyczące tej technologii.

Dlaczego Presto?

Presto obsługuje standardowy ANSI SQL, co bardzo ułatwia pracę analitykom danych i programistom. Chociaż jest zbudowany w Javie, pozwala uniknąć typowych problemów z kodem Java związanych z alokacją pamięci i czyszczeniem pamięci. Presto ma architekturę złącza, która jest przyjazna dla Hadoop. Umożliwia łatwe podłączanie systemów plików.

Presto działa na wielu dystrybucjach Hadoop. Ponadto Presto może nawiązać kontakt z platformą Hadoop, aby wysyłać zapytania do Cassandry, relacyjnych baz danych lub innych magazynów danych. Ta wieloplatformowa funkcja analityczna umożliwia użytkownikom Presto wydobycie maksymalnej wartości biznesowej od gigabajtów do petabajtów danych.