HCatalog - Wprowadzenie

Co to jest HCatalog?

HCatalog to narzędzie do zarządzania pamięcią masową tabel dla platformy Hadoop. Udostępnia dane tabelaryczne metastore Hive do innych aplikacji Hadoop. Umożliwia użytkownikom z różnymi narzędziami do przetwarzania danych (Pig, MapReduce) łatwe zapisywanie danych w siatce. Dzięki temu użytkownicy nie muszą martwić się o to, gdzie i w jakim formacie są przechowywane ich dane.

HCatalog działa jak kluczowy komponent Hive i umożliwia użytkownikom przechowywanie danych w dowolnym formacie i dowolnej strukturze.

Dlaczego HCatalog?

Zapewnienie odpowiedniego narzędzia do właściwej pracy

Ekosystem Hadoop zawiera różne narzędzia do przetwarzania danych, takie jak Hive, Pig i MapReduce. Chociaż te narzędzia nie wymagają metadanych, nadal mogą z nich korzystać, gdy są obecne. Udostępnianie magazynu metadanych umożliwia również użytkownikom łatwiejsze udostępnianie danych za pomocą różnych narzędzi. Przepływ pracy, w którym dane są ładowane i normalizowane za pomocą MapReduce lub Pig, a następnie analizowane za pośrednictwem Hive, jest bardzo powszechny. Jeśli wszystkie te narzędzia współużytkują jeden metastore, użytkownicy każdego narzędzia mają natychmiastowy dostęp do danych utworzonych za pomocą innego narzędzia. Nie są wymagane żadne czynności ładowania ani przenoszenia.

Przechwytywanie stanów przetwarzania, aby umożliwić udostępnianie

HCatalog może publikować wyniki analiz. Tak więc drugi programista może uzyskać dostęp do Twojej platformy analitycznej przez „REST”. Opublikowane przez Ciebie schematy są również przydatne dla innych analityków danych. Inni naukowcy zajmujący się danymi wykorzystują Twoje odkrycia jako dane wejściowe do kolejnego odkrycia.

Zintegruj Hadoop ze wszystkim

Hadoop jako środowisko przetwarzania i przechowywania otwiera przed przedsiębiorstwem wiele możliwości; Jednak aby przyspieszyć przyjęcie, musi współpracować z istniejącymi narzędziami i je rozszerzać. Hadoop powinien służyć jako dane wejściowe do platformy analitycznej lub integrować się z operacyjnymi magazynami danych i aplikacjami internetowymi. Organizacja powinna cieszyć się wartością Hadoop bez konieczności uczenia się zupełnie nowego zestawu narzędzi. Usługi REST otwierają platformę dla przedsiębiorstwa dzięki znajomemu interfejsowi API i językowi podobnemu do SQL. Systemy zarządzania danymi przedsiębiorstwa wykorzystują HCatalog do głębszej integracji z platformą Hadoop.

Architektura HCatalog

Poniższa ilustracja przedstawia ogólną architekturę HCatalog.

HCatalog obsługuje odczytywanie i zapisywanie plików w dowolnym formacie, dla którego SerDe(serializator-deserializator) można zapisać. Domyślnie HCatalog obsługuje formaty plików RCFile, CSV, JSON, SequenceFile i ORC. Aby użyć formatu niestandardowego, należy podać InputFormat, OutputFormat i SerDe.

HCatalog jest oparty na metastore Hive i zawiera DDL Hive. HCatalog zapewnia interfejsy do odczytu i zapisu dla Pig i MapReduce oraz używa interfejsu wiersza poleceń Hive do wydawania poleceń definicji danych i eksploracji metadanych.