Spark SQL - Nguồn dữ liệu

Giao diện DataFrame cho phép các Nguồn dữ liệu khác nhau hoạt động trên Spark SQL. Nó là một bảng tạm thời và có thể hoạt động như một RDD bình thường. Đăng ký DataFrame dưới dạng bảng cho phép bạn chạy các truy vấn SQL trên dữ liệu của nó.

Trong chương này, chúng tôi sẽ mô tả các phương pháp chung để tải và lưu dữ liệu bằng các Nguồn dữ liệu Spark khác nhau. Sau đó, chúng tôi sẽ thảo luận chi tiết về các tùy chọn cụ thể có sẵn cho các nguồn dữ liệu tích hợp sẵn.

Có nhiều loại nguồn dữ liệu khác nhau có sẵn trong SparkSQL, một số trong số đó được liệt kê bên dưới -

Sơ không Nguồn dữ liệu
1 Bộ dữ liệu JSON

Spark SQL có thể tự động nắm bắt giản đồ của tập dữ liệu JSON và tải nó dưới dạng DataFrame.

2 Bàn Hive

Hive đi kèm với thư viện Spark là HiveContext, kế thừa từ SQLContext.

3 Tệp sàn gỗ

Sàn gỗ là một định dạng cột, được hỗ trợ bởi nhiều hệ thống xử lý dữ liệu.