pyspark 데이터 프레임을 Python 사전 목록으로 변환

Nov 29 2020

안녕하세요 저는 pyspark를 처음 사용하고 pyspark.sql.dataframe을 사전 목록으로 변환하려고합니다.

아래는 내 데이터 프레임이며 유형은 <class 'pyspark.sql.dataframe.DataFrame'>입니다.

+------------------+----------+------------------------+
|             title|imdb_score|Worldwide_Gross(dollars)|
+------------------+----------+------------------------+
| The Eight Hundred|       7.2|               460699653|
| Bad Boys for Life|       6.6|               426505244|
|             Tenet|       7.8|               334000000|
|Sonic the Hedgehog|       6.5|               308439401|
|          Dolittle|       5.6|               245229088|
+------------------+----------+------------------------+

다음과 같이 변환하고 싶습니다.

[{"title":"The Eight Hundred", "imdb_score":7.2, "Worldwide_Gross(dollars)":460699653},
 {"title":"Bad Boys for Life", "imdb_score":6.6, "Worldwide_Gross(dollars)":426505244},
 {"title":"Tenet", "imdb_score":7.8, "Worldwide_Gross(dollars)":334000000},
 {"title":"Sonic the Hedgehog", "imdb_score":6.5, "Worldwide_Gross(dollars)":308439401},
 {"title":"Dolittle", "imdb_score":5.6, "Worldwide_Gross(dollars)":245229088}]

어떻게해야합니까? 미리 감사드립니다!

답변

1 mck Nov 29 2020 at 19:38

각 행을 사전에 매핑하고 결과를 수집 할 수 있습니다.

df.rdd.map(lambda row: row.asDict()).collect()