Zookeeper - Ứng dụng

Zookeeper cung cấp một cơ sở hạ tầng phối hợp linh hoạt cho môi trường phân tán. ZooKeeper framework hỗ trợ nhiều ứng dụng công nghiệp tốt nhất hiện nay. Chúng ta sẽ thảo luận về một số ứng dụng đáng chú ý nhất của ZooKeeper trong chương này.

Yahoo!

Khung ZooKeeper ban đầu được xây dựng tại “Yahoo!”. Một ứng dụng phân tán được thiết kế tốt cần đáp ứng các yêu cầu như tính minh bạch của dữ liệu, hiệu suất tốt hơn, tính mạnh mẽ, cấu hình tập trung và điều phối. Vì vậy, họ đã thiết kế khung ZooKeeper để đáp ứng những yêu cầu này.

Apache Hadoop

Apache Hadoop là động lực thúc đẩy sự phát triển của ngành Dữ liệu lớn. Hadoop dựa vào ZooKeeper để quản lý và điều phối cấu hình. Chúng ta hãy xem một kịch bản để hiểu vai trò của ZooKeeper trong Hadoop.

Giả sử rằng một Hadoop cluster cầu 100 or more commodity servers. Do đó, cần có các dịch vụ điều phối và đặt tên. Khi có sự tính toán của số lượng lớn các nút, mỗi nút cần phải đồng bộ hóa với nhau, biết nơi truy cập các dịch vụ và biết chúng nên được cấu hình như thế nào. Tại thời điểm này, các cụm Hadoop yêu cầu các dịch vụ nút chéo. ZooKeeper cung cấp các tiện ích chocross-node synchronization và đảm bảo các tác vụ trên các dự án Hadoop được tuần tự hóa và đồng bộ hóa.

Nhiều máy chủ ZooKeeper hỗ trợ các cụm Hadoop lớn. Mỗi máy khách giao tiếp với một trong các máy chủ ZooKeeper để lấy và cập nhật thông tin đồng bộ hóa của nó. Một số ví dụ trong thời gian thực là:

Human Genome Project- Dự án Bộ gen người chứa hàng terabyte dữ liệu. Khung Hadoop MapReduce có thể được sử dụng để phân tích tập dữ liệu và tìm ra các sự kiện thú vị cho sự phát triển của con người.
Healthcare - Bệnh viện có thể lưu trữ, truy xuất và phân tích các bộ hồ sơ bệnh án của bệnh nhân khổng lồ, thường có kích thước bằng terabyte.

Apache HBase

Apache HBase là một cơ sở dữ liệu NoSQL mã nguồn mở, phân tán, được sử dụng để truy cập đọc / ghi thời gian thực của các tập dữ liệu lớn và chạy trên HDFS. HBase saumaster-slave architecturenơi mà HBase Master cai quản tất cả nô lệ. Nô lệ được gọi làRegion servers.

Cài đặt ứng dụng phân tán HBase phụ thuộc vào một cụm ZooKeeper đang chạy. Apache HBase sử dụng ZooKeeper để theo dõi trạng thái của dữ liệu được phân phối trên toàn bộ máy chủ chính và khu vực với sự trợ giúp củacentralized configuration management và distributed mutexcác cơ chế. Dưới đây là một số trường hợp sử dụng của HBase -

Telecom- Ngành viễn thông lưu trữ hàng tỷ bản ghi cuộc gọi di động (khoảng 30TB / tháng) và truy cập các bản ghi cuộc gọi này trong thời gian thực trở thành một nhiệm vụ to lớn. HBase có thể được sử dụng để xử lý tất cả các bản ghi trong thời gian thực một cách dễ dàng và hiệu quả.
Social network- Tương tự như ngành viễn thông, các trang như Twitter, LinkedIn và Facebook nhận được khối lượng dữ liệu khổng lồ thông qua các bài đăng do người dùng tạo. HBase có thể được sử dụng để tìm các xu hướng gần đây và các sự kiện thú vị khác.

Apache Solr

Apache Solr là một nền tảng tìm kiếm mã nguồn mở, nhanh chóng được viết bằng Java. Nó là một công cụ tìm kiếm phân tán có khả năng xử lý lỗi nhanh chóng. Được xây dựng trên đầu trang củaLucene, nó là một công cụ tìm kiếm văn bản hiệu suất cao, đầy đủ tính năng.

Solr sử dụng rộng rãi mọi tính năng của ZooKeeper như quản lý cấu hình, bầu cử lãnh đạo, quản lý nút, Khóa và đồng bộ hóa dữ liệu.

Solr có hai phần riêng biệt, indexing và searching. Lập chỉ mục là một quá trình lưu trữ dữ liệu ở định dạng thích hợp để có thể tìm kiếm sau này. Solr sử dụng ZooKeeper để lập chỉ mục dữ liệu trong nhiều nút và tìm kiếm từ nhiều nút. ZooKeeper đóng góp các tính năng sau:

Thêm / xóa các nút khi cần thiết
Sao chép dữ liệu giữa các nút và sau đó giảm thiểu mất mát dữ liệu
Chia sẻ dữ liệu giữa nhiều nút và sau đó tìm kiếm từ nhiều nút để có kết quả tìm kiếm nhanh hơn

Một số trường hợp sử dụng của Apache Solr bao gồm thương mại điện tử, tìm kiếm việc làm, v.v.