PySparkチュートリアル

ApacheSparkはScalaプログラミング言語で書かれています。SparkでPythonをサポートするために、ApacheSparkコミュニティはツールPySparkをリリースしました。PySparkを使用すると、Pythonプログラミング言語でRDDを操作することもできます。彼らがこれを達成できるのは、Py4jと呼ばれるライブラリのおかげです。これは、データ駆動型ドキュメントの基本をカバーし、そのさまざまなコンポーネントとサブコンポーネントを処理する方法を説明する入門チュートリアルです。

このチュートリアルは、プログラミング言語とリアルタイム処理フレームワークでのキャリアを目指している専門家を対象としています。このチュートリアルは、読者がPySparkとそのさまざまなモジュールおよびサブモジュールを快適に使い始めることができるようにすることを目的としています。

このチュートリアルで提供されるさまざまな概念に進む前に、読者はプログラミング言語とフレームワークが何であるかをすでに知っていると想定されています。これに加えて、読者がApache Spark、Apache Hadoop、Scalaプログラミング言語、Hadoop分散ファイルシステム(HDFS)、Pythonについて十分な知識を持っていると非常に役立ちます。