PySpark로 기능 추출

이 장에서는 Agile Data Science에서 PySpark를 사용하여 추출 기능을 적용하는 방법에 대해 알아 봅니다.

Spark 개요

Apache Spark는 빠른 실시간 처리 프레임 워크로 정의 할 수 있습니다. 실시간으로 데이터를 분석하기 위해 계산을 수행합니다. Apache Spark는 실시간 스트림 처리 시스템으로 도입되며 일괄 처리도 처리 할 수 ​​있습니다. Apache Spark는 대화 형 쿼리 및 반복 알고리즘을 지원합니다.

Spark는 "Scala 프로그래밍 언어"로 작성되었습니다.

PySpark는 Python과 Spark의 조합으로 간주 할 수 있습니다. PySpark는 Python API를 Spark 코어에 연결하고 Spark 컨텍스트를 초기화하는 PySpark 셸을 제공합니다. 대부분의 데이터 과학자는 이전 장에서 설명한대로 기능 추적에 PySpark를 사용합니다.

이 예에서는 counts라는 데이터 세트를 빌드하고 특정 파일에 저장하는 변환에 중점을 둡니다.

text_file = sc.textFile("hdfs://...")
counts = text_file.flatMap(lambda line: line.split(" ")) \
   .map(lambda word: (word, 1)) \
   .reduceByKey(lambda a, b: a + b)
counts.saveAsTextFile("hdfs://...")

사용자는 PySpark를 사용하여 Python 프로그래밍 언어로 RDD를 사용할 수 있습니다. 데이터 기반 문서 및 구성 요소의 기본 사항을 다루는 내장 라이브러리가이를 지원합니다.