Spark SQL - แหล่งข้อมูล
อินเทอร์เฟซ DataFrame ช่วยให้แหล่งข้อมูลที่แตกต่างกันทำงานบน Spark SQL เป็นโต๊ะชั่วคราวและสามารถใช้งานได้ตามปกติ RDD การลงทะเบียน DataFrame เป็นตารางช่วยให้คุณสามารถเรียกใช้การสืบค้น SQL ผ่านข้อมูลได้
ในบทนี้เราจะอธิบายวิธีการทั่วไปในการโหลดและบันทึกข้อมูลโดยใช้ Spark DataSources ที่แตกต่างกัน หลังจากนั้นเราจะพูดถึงรายละเอียดเกี่ยวกับตัวเลือกเฉพาะที่พร้อมใช้งานสำหรับแหล่งข้อมูลในตัว
มีแหล่งข้อมูลหลายประเภทที่มีอยู่ใน SparkSQL ซึ่งบางแหล่งมีการระบุไว้ด้านล่าง -
| ซีเนียร์ไม่มี | แหล่งข้อมูล | 
|---|---|
| 1 | ชุดข้อมูล JSON  Spark SQL สามารถจับสคีมาของชุดข้อมูล JSON โดยอัตโนมัติและโหลดเป็น DataFrame  |  
      
| 2 | ตารางไฮฟ์  Hive มาพร้อมกับไลบรารี Spark เป็น HiveContext ซึ่งสืบทอดมาจาก SQLContext  |  
      
| 3 | ไฟล์ไม้ปาร์เก้  ไม้ปาร์เก้เป็นรูปแบบเสาซึ่งรองรับโดยระบบประมวลผลข้อมูลจำนวนมาก  |