¿Cómo programar trabajos de Spark en Google Dataproc?

Aug 24 2020

Quiero crear un flujo de ingestión / agregación en Google Cloud usando Dataproc, donde una vez al día / hora quiero que se ejecute un trabajo de Spark en los datos recopilados hasta entonces.

¿Hay alguna forma de programar los trabajos de Spark? ¿O de hacer que este disparador se base, por ejemplo, en cualquier evento de datos nuevo que llegue al flujo?

Respuestas

3 HenryGong Aug 25 2020 at 00:08

Dataproc Workflow + Cloud Scheduler podría ser una solución para usted. Admite exactamente lo que describió, por ejemplo, ejecutar un flujo de trabajos a diario.