Zookeeper-アプリケーション
Zookeeperは、分散環境向けの柔軟な調整インフラストラクチャを提供します。ZooKeeperフレームワークは、今日の最高の産業用アプリケーションの多くをサポートしています。この章では、ZooKeeperの最も注目すべきアプリケーションのいくつかについて説明します。
Yahoo!
ZooKeeperフレームワークは、もともと「Yahoo!」で構築されました。適切に設計された分散アプリケーションは、データの透過性、パフォーマンスの向上、堅牢性、一元化された構成、調整などの要件を満たす必要があります。そこで、彼らはこれらの要件を満たすようにZooKeeperフレームワークを設計しました。
Apache Hadoop
Apache Hadoopは、ビッグデータ業界の成長の背後にある原動力です。Hadoopは、構成管理と調整をZooKeeperに依存しています。HadoopでのZooKeeperの役割を理解するためのシナリオを考えてみましょう。
と仮定します Hadoop cluster 橋 100 or more commodity servers。したがって、調整および命名サービスが必要です。多数のノードの計算が含まれるため、各ノードは相互に同期し、サービスにアクセスする場所を把握し、それらをどのように構成する必要があるかを把握する必要があります。この時点で、Hadoopクラスターにはクロスノードサービスが必要です。ZooKeeperは以下の機能を提供しますcross-node synchronization また、Hadoopプロジェクト全体のタスクがシリアル化および同期されるようにします。
複数のZooKeeperサーバーが大規模なHadoopクラスターをサポートします。各クライアントマシンは、ZooKeeperサーバーの1つと通信して、同期情報を取得および更新します。リアルタイムの例のいくつかは次のとおりです。
Human Genome Project−ヒトゲノムプロジェクトには、テラバイトのデータが含まれています。Hadoop MapReduceフレームワークを使用して、データセットを分析し、人間開発に関する興味深い事実を見つけることができます。
Healthcare −病院は、通常はテラバイト単位の膨大な数の患者の医療記録を保存、取得、分析できます。
Apache HBase
Apache HBaseは、大規模なデータセットのリアルタイムの読み取り/書き込みアクセスに使用されるオープンソースの分散型NoSQLデータベースであり、HDFS上で実行されます。HBaseが続きますmaster-slave architectureここで、HBaseマスターがすべてのスレーブを管理します。奴隷はRegion servers。
HBase分散アプリケーションのインストールは、実行中のZooKeeperクラスターに依存します。Apache HBaseは、ZooKeeperを使用して、マスターサーバーとリージョンサーバー全体に分散されたデータのステータスを追跡します。centralized configuration management そして distributed mutexメカニズム。HBaseのユースケースのいくつかを次に示します-
Telecom−電気通信業界は、数十億のモバイル通話記録(約30TB /月)を保存しており、これらの通話記録にリアルタイムでアクセスすることは大きな課題になります。HBaseを使用すると、すべてのレコードをリアルタイムで簡単かつ効率的に処理できます。
Social network−電気通信業界と同様に、Twitter、LinkedIn、Facebookなどのサイトは、ユーザーが作成した投稿を通じて大量のデータを受信します。HBaseを使用して、最近の傾向やその他の興味深い事実を見つけることができます。
Apache Solr
Apache Solrは、Javaで記述された高速のオープンソース検索プラットフォームです。これは、非常に高速で、障害に強い分散検索エンジンです。上に構築Lucene、それは高性能でフル機能のテキスト検索エンジンです。
Solrは、構成管理、リーダー選出、ノード管理、データのロックと同期など、ZooKeeperのすべての機能を幅広く使用しています。
Solrには2つの異なる部分があります。 indexing そして searching。インデックス作成は、後で検索できるようにデータを適切な形式で保存するプロセスです。Solrは、ZooKeeperを使用して、複数のノードのデータのインデックス作成と複数のノードからの検索の両方を行います。ZooKeeperは、次の機能を提供します-
必要に応じてノードを追加/削除
ノード間でのデータのレプリケーションとその後のデータ損失の最小化
複数のノード間でデータを共有し、その後、複数のノードから検索して検索結果を高速化する
Apache Solrのユースケースには、eコマースや求人検索などがあります。