Collecter des données vers Redis à la manière d'un écureuil

Mar 27 2023

Apache Flink et Redis sont deux outils puissants qui peuvent être utilisés ensemble pour créer des pipelines de traitement de données en temps réel capables de gérer de gros volumes de données. Flink fournit une plate-forme hautement évolutive et tolérante aux pannes pour le traitement des flux de données, tandis que Redis fournit une base de données en mémoire hautes performances qui peut être utilisée pour stocker et interroger des données.

Apache Flink et Redis sont deux outils puissants qui peuvent être utilisés ensemble pour créer des pipelines de traitement de données en temps réel capables de gérer de gros volumes de données. Flink fournit une plate-forme hautement évolutive et tolérante aux pannes pour le traitement des flux de données, tandis que Redis fournit une base de données en mémoire hautes performances qui peut être utilisée pour stocker et interroger des données. Dans cet article, nous allons explorer comment Flink peut être utilisé pour appeler Redis à l'aide de fonctions asynchrones et montrer comment cela peut être utilisé pour transmettre des données à Redis de manière non bloquante.

Conte de Redis

IC : Infographie expliquée par Redis (https://architecturenotes.co/redis/)

"Redis : plus qu'un simple cache

Redis est un puissant magasin de structure de données en mémoire NoSQL qui est devenu un outil incontournable pour les développeurs. Bien qu'il soit souvent considéré comme un simple cache, Redis est bien plus que cela. Il peut fonctionner comme une base de données, un courtier de messages et un cache tout en un.

L'une des forces de Redis est sa polyvalence. Il prend en charge divers types de données, notamment les chaînes, les listes, les ensembles, les ensembles triés, les hachages, les flux, les hyperloglogs et les bitmaps. Redis propose également des index géospatiaux et des requêtes de rayon, ce qui en fait un outil précieux pour les applications basées sur la localisation.

Les fonctionnalités de Redis vont au-delà de son modèle de données. Il intègre la réplication, les scripts Lua et les transactions, et peut partitionner automatiquement les données avec Redis Cluster. De plus, Redis offre une haute disponibilité via Redis Sentinel.

Remarque : dans cet article, nous nous concentrerons davantage sur le mode cluster Redis

CI : mode cluster Redis (https://architecturenotes.co/redis/)

Redis Cluster utilise le partitionnement algorithmique avec Hashslots pour déterminer quel fragment contient une clé donnée et simplifie l'ajout de nouvelles instances. Pendant ce temps, il utilise Gossiping pour déterminer la santé du cluster, et si un nœud principal ne répond pas, un nœud secondaire peut être promu pour maintenir le cluster en bonne santé. Il est essentiel d'avoir un nombre impair de nœuds principaux et deux répliques pour une configuration robuste afin d'éviter le phénomène de cerveau divisé (où les clusters sont incapables de décider qui promouvoir et se retrouvent avec une décision partagée)

Pour parler à Redis Cluster, nous utiliserons laitue un client Redis Async Java.

Conte de Flink

IC : Flink Highlevel (https://flink.apache.org/)

Apache Flink est un framework de traitement de flux et de traitement par lots unifié et open source conçu pour gérer le traitement de données en temps réel, à haut débit et tolérant aux pannes. Il est construit sur le framework Apache Gelly et est conçu pour prendre en charge le traitement d'événements complexes et les calculs avec état sur les flux limités et illimités. Ce qui le rend rapide, c'est son exploitation des performances en mémoire et le point de contrôle asynchrone de l'état local.

Le héros de l'histoire

IC: Flink 1.16 Release Docs

L'interaction asynchrone avec les bases de données change la donne pour les applications de traitement de flux. Avec cette approche, une seule instance de fonction peut gérer plusieurs requêtes à la fois, ce qui permet des réponses simultanées et une augmentation significative du débit. En chevauchant le temps d'attente avec d'autres demandes et réponses, le pipeline de traitement devient beaucoup plus efficace.

Nous allons prendre un exemple de données de commerce électronique pour calculer le nombre de ventes pour chaque catégorie dans la fenêtre glissante de 24 heures avec une diapositive de 30 secondes et l'envoyer à Redis pour une recherche plus rapide d'un service en aval.