DynamoDB - MapReduce

Amazon's Elastic MapReduce (EMR) cho phép bạn xử lý dữ liệu lớn một cách nhanh chóng và hiệu quả. EMR chạy Apache Hadoop trên các phiên bản EC2, nhưng đơn giản hóa quy trình. Bạn sử dụng Apache Hive để truy vấn bản đồ giảm luồng công việc thông qua HiveQL , một ngôn ngữ truy vấn tương tự như SQL. Apache Hive phục vụ như một cách để tối ưu hóa các truy vấn và ứng dụng của bạn.

Bạn có thể sử dụng tab EMR của bảng điều khiển quản lý, EMR CLI, API hoặc SDK để khởi chạy quy trình công việc. Bạn cũng có tùy chọn chạy Hive tương tác hoặc sử dụng tập lệnh.

Các hoạt động đọc / ghi EMR ảnh hưởng đến việc tiêu thụ thông lượng, tuy nhiên, trong các yêu cầu lớn, nó thực hiện thử lại với sự bảo vệ của một thuật toán dự phòng. Ngoài ra, chạy EMR đồng thời với các hoạt động và tác vụ khác có thể dẫn đến việc điều chỉnh.

Tích hợp DynamoDB / EMR không hỗ trợ các thuộc tính bộ nhị phân và nhị phân.

Điều kiện tiên quyết về tích hợp DynamoDB / EMR

Xem lại danh sách kiểm tra này về các mục cần thiết trước khi sử dụng EMR -

  • Tài khoản AWS
  • Một bảng được điền trong cùng một tài khoản được sử dụng trong các hoạt động EMR
  • Phiên bản Hive tùy chỉnh với kết nối DynamoDB
  • Hỗ trợ kết nối DynamoDB
  • Một thùng S3 (tùy chọn)
  • Máy khách SSH (tùy chọn)
  • Một cặp khóa EC2 (tùy chọn)

Thiết lập Hive

Trước khi sử dụng EMR, hãy tạo một cặp khóa để chạy Hive ở chế độ tương tác. Cặp khóa cho phép kết nối với các cá thể EC2 và các nút chính của luồng công việc.

Bạn có thể thực hiện việc này bằng cách làm theo các bước tiếp theo:

  • Đăng nhập vào bảng điều khiển quản lý và mở bảng điều khiển EC2 tại https://console.aws.amazon.com/ec2/

  • Chọn một vùng ở phía trên bên phải của bảng điều khiển. Đảm bảo vùng khớp với vùng DynamoDB.

  • Trong ngăn Điều hướng, hãy chọn Key Pairs.

  • Lựa chọn Create Key Pair.

  • bên trong Key Pair Name trường, nhập tên và chọn Create.

  • Tải xuống tệp khóa cá nhân kết quả sử dụng định dạng sau: filename.pem.

Note - Bạn không thể kết nối với các phiên bản EC2 mà không có cặp khóa.

Hive Cluster

Tạo một cụm hỗ trợ tổ ong để chạy Hive. Nó xây dựng môi trường cần thiết của các ứng dụng và cơ sở hạ tầng cho kết nối Hive-to-DynamoDB.

Bạn có thể thực hiện tác vụ này bằng cách sử dụng các bước sau:

  • Truy cập bảng điều khiển EMR.

  • Lựa chọn Create Cluster.

  • Trong màn hình tạo, đặt cấu hình cụm với tên mô tả cho cụm, chọn Yes để bảo vệ chấm dứt và kiểm tra Enabled để ghi nhật ký, một điểm đến S3 cho log folder S3 locationEnabled để gỡ lỗi.

  • Trong màn hình Cấu hình phần mềm, đảm bảo các trường giữ Amazon đối với bản phân phối Hadoop, phiên bản mới nhất cho phiên bản AMI, phiên bản Hive mặc định cho Ứng dụng được cài đặt-Hive và phiên bản Pig mặc định cho Ứng dụng được cài đặt-lợn.

  • Trong màn hình Cấu hình phần cứng, đảm bảo các trường giữ Launch into EC2-Classic cho Mạng, No Preference đối với Vùng khả dụng EC2, mặc định cho Loại phiên bản Master-Amazon EC2, không kiểm tra đối với Phiên bản Spot yêu cầu, mặc định cho Loại phiên bản Core-Amazon EC2, 2 cho Số lượng, không kiểm tra Yêu cầu Phiên bản Spot, mặc định cho Loại Phiên bản Task-Amazon EC2, 0 cho Đếm và không kiểm tra Yêu cầu Phiên bản Spot.

Đảm bảo đặt giới hạn cung cấp đủ dung lượng để ngăn chặn lỗi cụm.

  • Trong màn hình Bảo mật và Truy cập, hãy đảm bảo các trường giữ cặp khóa của bạn trong cặp khóa EC2, No other IAM users trong quyền truy cập của người dùng IAM và Proceed without roles trong vai trò IAM.

  • Xem lại màn hình Bootstrap Actions, nhưng không sửa đổi nó.

  • Xem lại cài đặt và chọn Create Cluster khi hoàn thành.

A Summary ngăn xuất hiện ở đầu cụm.

Kích hoạt phiên SSH

Bạn cần một phiên SSH đang hoạt động để kết nối với nút chính và thực hiện các hoạt động CLI. Định vị nút chính bằng cách chọn cụm trong bảng điều khiển EMR. Nó liệt kê nút chính làMaster Public DNS Name.

Cài đặt PuTTY nếu bạn chưa có. Sau đó khởi chạy PuTTYgen và chọnLoad. Chọn tệp PEM của bạn và mở nó. PuTTYgen sẽ thông báo cho bạn nhập thành công. Lựa chọnSave private key để lưu ở định dạng khóa cá nhân PuTTY (PPK) và chọn Yesđể lưu mà không có cụm từ vượt qua. Sau đó nhập tên cho phím PuTTY, nhấnSavevà đóng PuTTYgen.

Sử dụng PuTTY để tạo kết nối với nút chính bằng cách khởi động PuTTY trước. ChọnSessiontừ danh sách Danh mục. Nhập hadoop @ DNS trong trường Tên máy chủ. Mở rộngConnection > SSH trong danh sách Danh mục và chọn Auth. Trong màn hình tùy chọn điều khiển, hãy chọnBrowsecho tệp khóa riêng để xác thực. Sau đó, chọn tệp khóa riêng của bạn và mở nó. Lựa chọnYes cho cửa sổ bật lên cảnh báo bảo mật.

Khi được kết nối với nút chính, dấu nhắc lệnh Hadoop sẽ xuất hiện, có nghĩa là bạn có thể bắt đầu một phiên Hive tương tác.

Bàn Hive

Hive đóng vai trò như một công cụ kho dữ liệu cho phép truy vấn trên các cụm EMR sử dụng HiveQL . Các thiết lập trước cung cấp cho bạn lời nhắc làm việc. Chạy các lệnh Hive một cách tương tác bằng cách chỉ cần nhập “hive”, sau đó nhập bất kỳ lệnh nào bạn muốn. Xem hướng dẫn Hive của chúng tôi để biết thêm thông tin về Hive .