Spark SQL - แหล่งข้อมูล

อินเทอร์เฟซ DataFrame ช่วยให้แหล่งข้อมูลที่แตกต่างกันทำงานบน Spark SQL เป็นโต๊ะชั่วคราวและสามารถใช้งานได้ตามปกติ RDD การลงทะเบียน DataFrame เป็นตารางช่วยให้คุณสามารถเรียกใช้การสืบค้น SQL ผ่านข้อมูลได้

ในบทนี้เราจะอธิบายวิธีการทั่วไปในการโหลดและบันทึกข้อมูลโดยใช้ Spark DataSources ที่แตกต่างกัน หลังจากนั้นเราจะพูดถึงรายละเอียดเกี่ยวกับตัวเลือกเฉพาะที่พร้อมใช้งานสำหรับแหล่งข้อมูลในตัว

มีแหล่งข้อมูลหลายประเภทที่มีอยู่ใน SparkSQL ซึ่งบางแหล่งมีการระบุไว้ด้านล่าง -

ซีเนียร์ไม่มี แหล่งข้อมูล
1 ชุดข้อมูล JSON

Spark SQL สามารถจับสคีมาของชุดข้อมูล JSON โดยอัตโนมัติและโหลดเป็น DataFrame

2 ตารางไฮฟ์

Hive มาพร้อมกับไลบรารี Spark เป็น HiveContext ซึ่งสืบทอดมาจาก SQLContext

3 ไฟล์ไม้ปาร์เก้

ไม้ปาร์เก้เป็นรูปแบบเสาซึ่งรองรับโดยระบบประมวลผลข้อมูลจำนวนมาก