Come pianificare i lavori Spark su Google Dataproc?

Aug 24 2020

Voglio creare un flusso di importazione / aggregazione su Google Cloud utilizzando Dataproc, dove una volta al giorno / ora voglio che un job Spark venga eseguito sui dati raccolti fino ad allora.

C'è un modo per pianificare i processi Spark? O di fare questo trigger basato, ad esempio, su qualsiasi nuovo evento di dati in arrivo sul flusso?

Risposte

3 HenryGong Aug 25 2020 at 00:08

Dataproc Workflow + Cloud Scheduler potrebbe essere una soluzione per te. Supporta esattamente ciò che hai descritto, ad esempio eseguire un flusso di lavori su base giornaliera.