Comment le chef de produit gère-t-il les incidents en ligne ?
Dec 03 2022
Le fond de cet article est un incident qui s'est produit. La cause de l'incident était due à des données incorrectes.
Le fond de cet article est un incident qui s'est produit. La cause de l'incident était due à des données incorrectes. Nous n'avons pas réalisé l'incident jusqu'à ce que nous ayons reçu les plaintes des clients. Entre-temps, nous avons fermé tous les services concernant la source de données incorrecte pour éviter de propager l'impact. Après cet incident, j'ai résumé quelques méthodologies sur la gestion des incidents en ligne.
Réflexion
- Tous les systèmes ont besoin d'une fonction de surveillance. Deux données secondaires doivent être surveillées. D'un côté, les données sources, le volume de données et l'exactitude doivent être surveillés. L'alarme des exceptions de données nous aidera à trouver l'exception avant les plaintes des clients. L'autre côté concerne les données d'exploitation de l'entreprise. Dans la mesure du possible, effectuez une validation croisée des données d'au moins deux dimensions des opérations commerciales.
- Tous les systèmes ont besoin d'une fonction de journalisation. Il est nécessaire de garder une trace des enregistrements de fonctionnement pendant le fonctionnement du système. Parce que l'enregistrement d'opération est utile pour le dépannage.
- Tenir à jour à tout moment les documents relatifs à la structure et à la conception du système. Les documents ne comprennent pas seulement des bases de données, des champs, des API et des services associés. Une fois qu'un problème de contenu survient, il peut être localisé directement à partir de la source, et l'impact du problème peut être évalué avec précision en localisant le problème, de sorte que l'expansion de l'impact puisse être arrêtée à temps même s'il y a en amont et en aval ou d'autres relations connexes dans plusieurs systèmes.
- Une fois l'incident survenu, confirmez si la fonction dispose d'un plan de commutation ou de sauvegarde. Arrêtez la fonction ou activez les programmes d'urgence.
- Localisez le problème directement selon les documents du système et les enregistrements d'opération.
- Contrat avec le propriétaire des systèmes en amont, en aval et autres systèmes connexes, informer du problème et de la surface d'impact.
- Travailler sur la résolution du problème. En attendant, comptez tous les utilisateurs concernés par ce problème et soumettez la liste des utilisateurs et comment les gérer au système d'appel.
- Il est indispensable de corriger les données et de sauvegarder les données.
- Après l'incident, résumez les causes, le processus et le suivi dans un rapport d'incident.