Hướng dẫn về Hive

Hive là một công cụ cơ sở hạ tầng kho dữ liệu để xử lý dữ liệu có cấu trúc trong Hadoop. Nó nằm trên Hadoop để tóm tắt Dữ liệu lớn và giúp dễ dàng truy vấn và phân tích.

Đây là hướng dẫn ngắn gọn cung cấp giới thiệu về cách sử dụng Apache Hive HiveQL với Hệ thống tệp phân tán Hadoop. Hướng dẫn này có thể là bước đầu tiên của bạn để trở thành Nhà phát triển Hadoop thành công với Hive.

Hướng dẫn này được chuẩn bị cho các chuyên gia mong muốn tạo dựng sự nghiệp trong Phân tích dữ liệu lớn bằng cách sử dụng Khung Hadoop. Các nhà phát triển và chuyên gia ETL nói chung cũng có thể sử dụng hướng dẫn này để đạt hiệu quả tốt.

Trước khi tiếp tục hướng dẫn này, bạn cần có kiến thức cơ bản về Core Java, các khái niệm Cơ sở dữ liệu của SQL, hệ thống Tệp Hadoop và bất kỳ phiên bản hệ điều hành Linux nào.