PySpark-StorageLevel

StorageLevelは、RDDの保存方法を決定します。Apache Sparkでは、StorageLevelは、RDDをメモリに保存するか、ディスクに保存するか、またはその両方を行うかを決定します。また、RDDをシリアル化するかどうか、およびRDDパーティションを複製するかどうかも決定します。

次のコードブロックには、StorageLevelのクラス定義があります-

class pyspark.StorageLevel(useDisk, useMemory, useOffHeap, deserialized, replication = 1)

ここで、RDDのストレージを決定するために、以下に示すさまざまなストレージレベルがあります。

DISK_ONLY = StorageLevel（True、False、False、False、1）
DISK_ONLY_2 = StorageLevel（True、False、False、False、2）
MEMORY_AND_DISK = StorageLevel（True、True、False、False、1）
MEMORY_AND_DISK_2 = StorageLevel（True、True、False、False、2）
MEMORY_AND_DISK_SER = StorageLevel（True、True、False、False、1）
MEMORY_AND_DISK_SER_2 = StorageLevel（True、True、False、False、2）
MEMORY_ONLY = StorageLevel（False、True、False、False、1）
MEMORY_ONLY_2 = StorageLevel（False、True、False、False、2）
MEMORY_ONLY_SER = StorageLevel（False、True、False、False、1）
MEMORY_ONLY_SER_2 = StorageLevel（False、True、False、False、2）
OFF_HEAP = StorageLevel（True、True、True、False、1）

ストレージレベルを使用する次のStorageLevelの例を考えてみましょう。 MEMORY_AND_DISK_2, これは、RDDパーティションのレプリケーションが2になることを意味します。

------------------------------------storagelevel.py-------------------------------------
from pyspark import SparkContext
import pyspark
sc = SparkContext (
   "local", 
   "storagelevel app"
)
rdd1 = sc.parallelize([1,2])
rdd1.persist( pyspark.StorageLevel.MEMORY_AND_DISK_2 )
rdd1.getStorageLevel()
print(rdd1.getStorageLevel())
------------------------------------storagelevel.py-------------------------------------

Command −コマンドは次のとおりです−

$SPARK_HOME/bin/spark-submit storagelevel.py

Output −上記のコマンドの出力を以下に示します。

Disk Memory Serialized 2x Replicated