Comment planifier des tâches Spark sur Google Dataproc?

Aug 24 2020

Je souhaite créer un flux d'ingestion / d'agrégation sur Google Cloud à l'aide de Dataproc, où une fois par jour / heure, je souhaite qu'une tâche Spark s'exécute sur les données collectées jusque-là.

Existe-t-il un moyen de planifier les travaux Spark? Ou de faire ce déclencheur basé par exemple sur tout nouvel événement de données arrivant sur le flux?

Réponses

3 HenryGong Aug 25 2020 at 00:08

Dataproc Workflow + Cloud Scheduler peut être une solution pour vous. Il prend en charge exactement ce que vous avez décrit, par exemple, exécuter un flux de travaux dans une base quotidienne.