Spark SQL-데이터 프레임

DataFrame은 명명 된 열로 구성된 분산 된 데이터 모음입니다. 개념적으로는 좋은 최적화 기술을 가진 관계형 테이블과 동일합니다.

DataFrame은 Hive 테이블, 구조화 된 데이터 파일, 외부 데이터베이스 또는 기존 RDD와 같은 다양한 소스의 배열에서 구성 될 수 있습니다. 이 API는 최신 빅 데이터 및 데이터 과학 애플리케이션을 위해 설계되었습니다.DataFrame in R ProgrammingPandas in Python.

DataFrame의 특징

다음은 DataFrame의 몇 가지 특징입니다.

  • 단일 노드 클러스터에서 대규모 클러스터까지 킬로바이트에서 페타 바이트 크기의 데이터를 처리하는 기능.

  • 다양한 데이터 형식 (Avro, csv, 탄력적 검색 및 Cassandra) 및 스토리지 시스템 (HDFS, HIVE 테이블, mysql 등)을 지원합니다.

  • Spark SQL Catalyst 최적화 프로그램 (트리 변환 프레임 워크)을 통한 최첨단 최적화 및 코드 생성.

  • Spark-Core를 통해 모든 빅 데이터 도구 및 프레임 워크와 쉽게 통합 할 수 있습니다.

  • Python, Java, Scala 및 R 프로그래밍을위한 API를 제공합니다.

SQLContext

SQLContext는 클래스이며 Spark SQL의 기능을 초기화하는 데 사용됩니다. SQLContext 클래스 개체를 초기화하려면 SparkContext 클래스 개체 (sc)가 필요합니다.

다음 명령어는 spark-shell을 통해 SparkContext를 초기화하는 데 사용됩니다.

$ spark-shell

기본적으로 SparkContext 개체는 다음 이름으로 초기화됩니다. sc 스파크 쉘이 시작될 때.

다음 명령을 사용하여 SQLContext를 만듭니다.

scala> val sqlcontext = new org.apache.spark.sql.SQLContext(sc)

다음과 같은 이름의 JSON 파일에있는 직원 레코드의 예를 살펴 보겠습니다. employee.json. 다음 명령을 사용하여 DataFrame (df)을 만들고 이름이 지정된 JSON 문서를 읽습니다.employee.json 다음 내용으로.

employee.json −이 파일을 현재 scala> 포인터가 있습니다.

{
   {"id" : "1201", "name" : "satish", "age" : "25"}
   {"id" : "1202", "name" : "krishna", "age" : "28"}
   {"id" : "1203", "name" : "amith", "age" : "39"}
   {"id" : "1204", "name" : "javed", "age" : "23"}
   {"id" : "1205", "name" : "prudvi", "age" : "23"}
}

DataFrame 작업

DataFrame은 구조화 된 데이터 조작을위한 도메인 별 언어를 제공합니다. 여기에는 DataFrames를 사용한 구조화 된 데이터 처리의 몇 가지 기본 예가 포함되어 있습니다.

DataFrame 작업을 수행하려면 아래 단계를 따르십시오-

JSON 문서 읽기

먼저 JSON 문서를 읽어야합니다. 이를 기반으로 (dfs)라는 DataFrame을 생성합니다.

다음 명령을 사용하여 이름이 지정된 JSON 문서를 읽으십시오. employee.json. 데이터는 id, name 및 age 필드가있는 테이블로 표시됩니다.

scala> val dfs = sqlContext.read.json("employee.json")

Output − 필드 이름은 employee.json.

dfs: org.apache.spark.sql.DataFrame = [age: string, id: string, name: string]

데이터 표시

DataFrame의 데이터를 보려면 다음 명령을 사용하십시오.

scala> dfs.show()

Output − 직원 데이터를 표 형식으로 볼 수 있습니다.

<console>:22, took 0.052610 s
+----+------+--------+
|age | id   |  name  |
+----+------+--------+
| 25 | 1201 | satish |
| 28 | 1202 | krishna|
| 39 | 1203 | amith  |
| 23 | 1204 | javed  |
| 23 | 1205 | prudvi |
+----+------+--------+

printSchema 메서드 사용

DataFrame의 구조 (스키마)를 보려면 다음 명령을 사용하십시오.

scala> dfs.printSchema()

Output

root
   |-- age: string (nullable = true)
   |-- id: string (nullable = true)
   |-- name: string (nullable = true)

선택 방법 사용

다음 명령을 사용하여 가져옵니다. name-DataFrame의 세 열 중 열.

scala> dfs.select("name").show()

Output − 당신은 값을 볼 수 있습니다 name 기둥.

<console>:22, took 0.044023 s
+--------+
|  name  |
+--------+
| satish |
| krishna|
| amith  |
| javed  |
| prudvi |
+--------+

연령 필터 사용

다음 명령을 사용하여 나이가 23 세 (연령> 23 세)보다 큰 직원을 찾습니다.

scala> dfs.filter(dfs("age") > 23).show()

Output

<console>:22, took 0.078670 s
+----+------+--------+
|age | id   | name   |
+----+------+--------+
| 25 | 1201 | satish |
| 28 | 1202 | krishna|
| 39 | 1203 | amith  |
+----+------+--------+

groupBy 메서드 사용

나이가 같은 직원 수를 계산하려면 다음 명령을 사용하십시오.

scala> dfs.groupBy("age").count().show()

Output − 두 명의 직원이 23 세입니다.

<console>:22, took 5.196091 s
+----+-----+
|age |count|
+----+-----+
| 23 |  2  |
| 25 |  1  |
| 28 |  1  |
| 39 |  1  |
+----+-----+

프로그래밍 방식으로 SQL 쿼리 실행

SQLContext를 사용하면 응용 프로그램이 SQL 함수를 실행하는 동안 프로그래밍 방식으로 SQL 쿼리를 실행하고 결과를 DataFrame으로 반환 할 수 있습니다.

일반적으로 백그라운드에서 SparkSQL은 기존 RDD를 DataFrame으로 변환하는 두 가지 방법을 지원합니다.

Sr. 아니오 방법 및 설명
1 리플렉션을 사용하여 스키마 추론

이 메서드는 리플렉션을 사용하여 특정 유형의 개체를 포함하는 RDD의 스키마를 생성합니다.

2 프로그래밍 방식으로 스키마 지정

DataFrame을 만드는 두 번째 방법은 스키마를 생성 한 다음 기존 RDD에 적용 할 수있는 프로그래밍 인터페이스를 사용하는 것입니다.