Dịch vụ web của Amazon - Bản đồ co giãn

Amazon Elastic MapReduce (EMR) là một dịch vụ web cung cấp một khung được quản lý để chạy các khung xử lý dữ liệu như Apache Hadoop, Apache Spark và Presto một cách dễ dàng, tiết kiệm chi phí và an toàn.

Nó được sử dụng để phân tích dữ liệu, lập chỉ mục web, lưu trữ dữ liệu, phân tích tài chính, mô phỏng khoa học, v.v.

Cách thiết lập Amazon EMR?

Làm theo các bước sau để thiết lập Amazon EMR -

Step 1 - Đăng nhập vào tài khoản AWS và chọn Amazon EMR trên bảng điều khiển quản lý.

Step 2- Tạo nhóm Amazon S3 cho nhật ký cụm và dữ liệu đầu ra. (Quy trình được giải thích chi tiết trong phần Amazon S3)

Step 3 - Khởi chạy Amazon EMR cluster.

Sau đây là các bước để tạo cụm và khởi chạy nó lên EMR.

  • Sử dụng liên kết này để mở bảng điều khiển Amazon EMR - https://console.aws.amazon.com/elasticmapreduce/home

  • Chọn tạo cụm và cung cấp các chi tiết được yêu cầu trên trang Cấu hình cụm.

  • Để tùy chọn phần Thẻ làm mặc định và tiếp tục.

  • Trên phần Cấu hình phần mềm, hãy cấp các tùy chọn làm mặc định.

  • Trên phần Cấu hình Hệ thống Tệp, hãy để các tùy chọn cho EMRFS như được đặt theo mặc định. EMRFS là một triển khai của HDFS, nó cho phép các cụm Amazon EMR lưu trữ dữ liệu trên Amazon S3.

  • Trên phần Cấu hình phần cứng, chọn m3.xlarge trong trường loại phiên bản EC2 và để các cài đặt khác làm mặc định. Nhấp vào nút Tiếp theo.

  • Trên phần Bảo mật và Truy cập, đối với cặp khóa EC2, hãy chọn cặp từ danh sách trong trường cặp khóa EC2 và để các cài đặt khác làm mặc định.

  • Trên phần Bootstrap Actions, hãy để các trường như được đặt theo mặc định và nhấp vào nút Thêm. Các hành động Bootstrap là các tập lệnh được thực thi trong quá trình thiết lập trước khi Hadoop bắt đầu trên mọi nút cụm.

  • Trên phần Các bước, hãy để cài đặt làm mặc định và tiếp tục.

  • Nhấp vào nút Tạo Cụm và trang Chi tiết Cụm sẽ mở ra. Đây là nơi chúng ta nên chạy tập lệnh Hive như một bước cụm và sử dụng giao diện web Hue để truy vấn dữ liệu.

Step 4 - Chạy tập lệnh Hive theo các bước sau.

  • Mở bảng điều khiển Amazon EMR và chọn cụm mong muốn.

  • Di chuyển đến phần Các bước và mở rộng nó. Sau đó nhấp vào nút Thêm bước.

  • Hộp thoại Thêm Bước mở ra. Điền vào các trường bắt buộc, sau đó nhấp vào nút Thêm.

  • Để xem đầu ra của tập lệnh Hive, hãy làm theo các bước sau:

    • Mở bảng điều khiển Amazon S3 và chọn nhóm S3 được sử dụng cho dữ liệu đầu ra.

    • Chọn thư mục đầu ra.

    • Truy vấn ghi kết quả vào một thư mục riêng biệt. Lựa chọnos_requests.

    • Đầu ra được lưu trữ trong một tệp văn bản. Tệp này có thể được tải xuống.

Lợi ích của Amazon EMR

Sau đây là những lợi ích của Amazon EMR -

  • Easy to use - Amazon EMR rất dễ sử dụng, tức là có thể dễ dàng thiết lập cụm, cấu hình Hadoop, cung cấp nút, v.v.

  • Reliable - Nó đáng tin cậy theo nghĩa là nó thử lại các tác vụ bị lỗi và tự động thay thế các phiên bản hoạt động kém.

  • Elastic- Amazon EMR cho phép tính toán số lượng lớn các phiên bản để xử lý dữ liệu ở mọi quy mô. Nó dễ dàng tăng hoặc giảm số lượng phiên bản.

  • Secure - Nó tự động định cấu hình cài đặt tường lửa Amazon EC2, kiểm soát quyền truy cập mạng vào các phiên bản, khởi chạy các cụm trong Amazon VPC, v.v.

  • Flexible- Nó cho phép kiểm soát hoàn toàn các cụm và quyền truy cập root vào mọi trường hợp. Nó cũng cho phép cài đặt các ứng dụng bổ sung và tùy chỉnh cụm của bạn theo yêu cầu.

  • Cost-efficient- Giá cả của nó rất dễ ước tính. Nó tính phí hàng giờ cho mọi trường hợp được sử dụng.