HCatalog - Введение
Что такое HCatalog?
HCatalog - это инструмент управления хранилищем таблиц для Hadoop. Он предоставляет табличные данные хранилища метаданных Hive другим приложениям Hadoop. Он позволяет пользователям с различными инструментами обработки данных (Pig, MapReduce) легко записывать данные в сетку. Это гарантирует, что пользователям не нужно беспокоиться о том, где и в каком формате хранятся их данные.
HCatalog работает как ключевой компонент Hive и позволяет пользователям хранить свои данные в любом формате и любой структуре.
Почему HCatalog?
Включение правильного инструмента для правильной работы
Экосистема Hadoop содержит различные инструменты для обработки данных, такие как Hive, Pig и MapReduce. Хотя эти инструменты не требуют метаданных, они все равно могут использовать их, если они есть. Совместное использование хранилища метаданных также позволяет пользователям различных инструментов более легко обмениваться данными. Рабочий процесс, при котором данные загружаются и нормализуются с помощью MapReduce или Pig, а затем анализируются с помощью Hive, очень распространен. Если все эти инструменты совместно используют одно хранилище метаданных, то пользователи каждого инструмента имеют немедленный доступ к данным, созданным с помощью другого инструмента. Никаких шагов загрузки или переноса не требуется.
Захват состояний обработки, чтобы разрешить совместное использование
HCatalog может публиковать результаты вашей аналитики. Таким образом, другой программист может получить доступ к вашей аналитической платформе через «REST». Публикуемые вами схемы также могут быть полезны другим специалистам по данным. Другие специалисты по данным используют ваши открытия в качестве исходных данных для следующего открытия.
Интегрируйте Hadoop со всем
Hadoop как среда обработки и хранения данных открывает перед предприятием много возможностей; однако, чтобы способствовать принятию, он должен работать с существующими инструментами и дополнять их. Hadoop должен использоваться в качестве входных данных для вашей аналитической платформы или интегрироваться с вашими оперативными хранилищами данных и веб-приложениями. Организация должна пользоваться преимуществами Hadoop без необходимости изучать совершенно новый набор инструментов. Службы REST открывают платформу для предприятий со знакомым API и языком, подобным SQL. Системы управления корпоративными данными используют HCatalog для более глубокой интеграции с платформой Hadoop.
Архитектура HCatalog
На следующем рисунке показана общая архитектура HCatalog.
HCatalog поддерживает чтение и запись файлов в любом формате, для которого SerDe(сериализатор-десериализатор) можно написать. По умолчанию HCatalog поддерживает форматы файлов RCFile, CSV, JSON, SequenceFile и ORC. Чтобы использовать настраиваемый формат, вы должны предоставить InputFormat, OutputFormat и SerDe.
HCatalog построен на основе хранилища метаданных Hive и включает DDL Hive. HCatalog предоставляет интерфейсы чтения и записи для Pig и MapReduce и использует интерфейс командной строки Hive для ввода команд определения данных и исследования метаданных.