HCatalog - Giới thiệu

HCatalog là gì?

HCatalog là một công cụ quản lý lưu trữ bảng cho Hadoop. Nó hiển thị dữ liệu dạng bảng của Hive di căn cho các ứng dụng Hadoop khác. Nó cho phép người dùng với các công cụ xử lý dữ liệu khác nhau (Pig, MapReduce) dễ dàng ghi dữ liệu lên lưới. Nó đảm bảo rằng người dùng không phải lo lắng về nơi hoặc định dạng dữ liệu của họ được lưu trữ.

HCatalog hoạt động giống như một thành phần chính của Hive và nó cho phép người dùng lưu trữ dữ liệu của họ ở bất kỳ định dạng và cấu trúc nào.

Tại sao HCatalog?

Kích hoạt công cụ phù hợp cho đúng công việc

Hệ sinh thái Hadoop chứa các công cụ khác nhau để xử lý dữ liệu như Hive, Pig và MapReduce. Mặc dù các công cụ này không yêu cầu siêu dữ liệu nhưng chúng vẫn có thể hưởng lợi từ nó khi nó hiện diện. Chia sẻ kho siêu dữ liệu cũng cho phép người dùng trên các công cụ chia sẻ dữ liệu dễ dàng hơn. Quy trình làm việc trong đó dữ liệu được tải và chuẩn hóa bằng cách sử dụng MapReduce hoặc Pig và sau đó được phân tích qua Hive là rất phổ biến. Nếu tất cả các công cụ này dùng chung một kho lưu trữ, thì người dùng của mỗi công cụ có quyền truy cập ngay vào dữ liệu được tạo bằng công cụ khác. Không cần tải hoặc chuyển các bước.

Ghi lại các trạng thái xử lý để cho phép chia sẻ

HCatalog có thể xuất bản kết quả phân tích của bạn. Vì vậy, lập trình viên khác có thể truy cập nền tảng phân tích của bạn thông qua “REST”. Các lược đồ do bạn xuất bản cũng hữu ích cho các nhà khoa học dữ liệu khác. Các nhà khoa học dữ liệu khác sử dụng khám phá của bạn làm đầu vào cho một khám phá tiếp theo.

Tích hợp Hadoop với mọi thứ

Hadoop như một môi trường xử lý và lưu trữ mở ra rất nhiều cơ hội cho doanh nghiệp; tuy nhiên, để thúc đẩy việc áp dụng, nó phải hoạt động cùng với các công cụ hiện có. Hadoop nên đóng vai trò là đầu vào cho nền tảng phân tích của bạn hoặc tích hợp với các kho dữ liệu hoạt động và ứng dụng web của bạn. Tổ chức nên tận hưởng giá trị của Hadoop mà không cần phải học một bộ công cụ hoàn toàn mới. Các dịch vụ REST mở ra nền tảng cho doanh nghiệp với một ngôn ngữ giống như API và SQL quen thuộc. Hệ thống quản lý dữ liệu doanh nghiệp sử dụng HCatalog để tích hợp sâu hơn với nền tảng Hadoop.

Kiến trúc HCatalog

Hình minh họa sau đây cho thấy kiến trúc tổng thể của HCatalog.

HCatalog hỗ trợ đọc và ghi tệp ở bất kỳ định dạng nào SerDe(serializer-deserializer) có thể được viết. Theo mặc định, HCatalog hỗ trợ các định dạng tệp RCFile, CSV, JSON, SequenceFile và ORC. Để sử dụng định dạng tùy chỉnh, bạn phải cung cấp InputFormat, OutputFormat và SerDe.

HCatalog được xây dựng dựa trên Hive di căn và kết hợp với DDL của Hive. HCatalog cung cấp giao diện đọc và ghi cho Pig và MapReduce và sử dụng giao diện dòng lệnh của Hive để đưa ra các lệnh định nghĩa dữ liệu và thăm dò siêu dữ liệu.