Tutorial PySpark
Apache Spark é escrito na linguagem de programação Scala. Para oferecer suporte a Python com Spark, a comunidade Apache Spark lançou uma ferramenta, PySpark. Usando o PySpark, você também pode trabalhar com RDDs na linguagem de programação Python. É por causa de uma biblioteca chamada Py4j que eles podem fazer isso. Este é um tutorial introdutório, que cobre os conceitos básicos de documentos orientados a dados e explica como lidar com seus vários componentes e subcomponentes.
Este tutorial é preparado para aqueles profissionais que desejam fazer carreira em linguagem de programação e framework de processamento em tempo real. Este tutorial tem como objetivo deixar os leitores confortáveis para começar a usar o PySpark junto com seus vários módulos e submódulos.
Antes de prosseguir com os vários conceitos dados neste tutorial, pressupõe-se que os leitores já conheçam o que é uma linguagem de programação e um framework. Além disso, será muito útil se os leitores tiverem um conhecimento sólido de Apache Spark, Apache Hadoop, linguagem de programação Scala, Hadoop Distributed File System (HDFS) e Python.