PySpark-はじめに

この章では、Apache Sparkとは何か、PySparkがどのように開発されたかを理解します。

Spark –概要

Apache Sparkは、超高速のリアルタイム処理フレームワークです。インメモリ計算を実行して、データをリアルタイムで分析します。それはとして絵になりましたApache Hadoop MapReduceバッチ処理のみを実行していて、リアルタイム処理機能がありませんでした。そのため、リアルタイムでストリーム処理を実行でき、バッチ処理も処理できるApacheSparkが導入されました。

リアルタイムおよびバッチ処理とは別に、ApacheSparkはインタラクティブクエリと反復アルゴリズムもサポートしています。Apache Sparkには、アプリケーションをホストできる独自のクラスターマネージャーがあります。ストレージと処理の両方にApacheHadoopを活用します。それは使用していますHDFS （Hadoop分散ファイルシステム）ストレージ用で、Sparkアプリケーションを実行できます YARN 同様に。

PySpark –概要

ApacheSparkはで書かれています Scala programming language。SparkでPythonをサポートするために、Apache SparkCommunityはツールPySparkをリリースしました。PySparkを使用すると、RDDsPythonプログラミング言語でも。それはと呼ばれる図書館のためですPy4j 彼らがこれを達成することができること。

PySparkは提供しています PySpark ShellPython APIをsparkコアにリンクし、Sparkコンテキストを初期化します。今日、データサイエンティストと分析の専門家の大多数は、豊富なライブラリセットのためにPythonを使用しています。PythonをSparkと統合することは、彼らにとって恩恵です。