PySpark - บทนำ

ในบทนี้เราจะทำความคุ้นเคยกับ Apache Spark คืออะไรและ PySpark ได้รับการพัฒนาอย่างไร

Spark - ภาพรวม

Apache Spark เป็นเฟรมเวิร์กการประมวลผลแบบเรียลไทม์ที่รวดเร็วทันใจ ทำการคำนวณในหน่วยความจำเพื่อวิเคราะห์ข้อมูลแบบเรียลไทม์ มันออกมาเป็นภาพApache Hadoop MapReduceกำลังดำเนินการประมวลผลชุดงานเท่านั้นและขาดคุณสมบัติการประมวลผลแบบเรียลไทม์ ดังนั้น Apache Spark จึงถูกนำมาใช้เนื่องจากสามารถประมวลผลสตรีมได้แบบเรียลไทม์และยังสามารถดูแลการประมวลผลแบบแบตช์ได้อีกด้วย

นอกเหนือจากการประมวลผลแบบเรียลไทม์และแบทช์แล้ว Apache Spark ยังรองรับการสอบถามแบบโต้ตอบและอัลกอริทึมซ้ำอีกด้วย Apache Spark มีตัวจัดการคลัสเตอร์ของตัวเองซึ่งสามารถโฮสต์แอปพลิเคชันได้ ใช้ประโยชน์จาก Apache Hadoop สำหรับทั้งการจัดเก็บและการประมวลผล มันใช้HDFS (Hadoop Distributed File system) สำหรับการจัดเก็บและสามารถเรียกใช้แอปพลิเคชัน Spark ได้ YARN เช่นกัน.

PySpark - ภาพรวม

Apache Spark เขียนด้วย Scala programming language. เพื่อรองรับ Python ด้วย Spark Apache Spark Community ได้เปิดตัวเครื่องมือ PySpark เมื่อใช้ PySpark คุณสามารถทำงานกับไฟล์RDDsในภาษาโปรแกรม Python ด้วย เป็นเพราะห้องสมุดที่เรียกว่าPy4j ว่าพวกเขาสามารถบรรลุเป้าหมายนี้ได้

ข้อเสนอของ PySpark PySpark Shellซึ่งเชื่อมโยง Python API กับแกนจุดประกายและเริ่มต้นบริบท Spark ปัจจุบันนักวิทยาศาสตร์ข้อมูลและผู้เชี่ยวชาญด้านการวิเคราะห์ส่วนใหญ่ใช้ Python เนื่องจากชุดไลบรารีที่สมบูรณ์ การรวม Python เข้ากับ Spark เป็นประโยชน์สำหรับพวกเขา