Hướng dẫn PySpark
Apache Spark được viết bằng ngôn ngữ lập trình Scala. Để hỗ trợ Python với Spark, cộng đồng Apache Spark đã phát hành một công cụ, PySpark. Sử dụng PySpark, bạn cũng có thể làm việc với RDD trong ngôn ngữ lập trình Python. Đó là nhờ có một thư viện tên là Py4j mà họ có thể đạt được điều này. Đây là hướng dẫn giới thiệu, bao gồm các kiến thức cơ bản về Tài liệu theo hướng dữ liệu và giải thích cách xử lý các thành phần và thành phần phụ khác nhau của nó.
Hướng dẫn này được chuẩn bị cho những chuyên gia có mong muốn tạo dựng sự nghiệp trong ngôn ngữ lập trình và khung xử lý thời gian thực. Hướng dẫn này nhằm giúp người đọc thoải mái khi bắt đầu với PySpark cùng với các mô-đun và mô-đun con khác nhau của nó.
Trước khi tiếp tục với các khái niệm khác nhau được đưa ra trong hướng dẫn này, có thể giả định rằng người đọc đã biết về ngôn ngữ lập trình và khung là gì. Ngoài ra, nó sẽ rất hữu ích nếu người đọc có kiến thức tốt về Apache Spark, Apache Hadoop, Ngôn ngữ lập trình Scala, Hệ thống tệp phân tán Hadoop (HDFS) và Python.