Como o gerente de produto lida com incidentes online?

Dec 03 2022
O pano de fundo deste artigo é um incidente aconteceu. A causa do incidente foi devido a um dado incorreto.
Foto de Lucian Alexe no Unsplash

O pano de fundo deste artigo é um incidente aconteceu. A causa do incidente foi devido a um dado incorreto. Não percebemos o incidente até recebermos as reclamações dos clientes. Nesse meio tempo, encerramos todos os serviços relacionados à fonte de dados incorreta para evitar a propagação do impacto. Após esse incidente, resumi algumas metodologias sobre como lidar com incidentes online.

Reflexão

  1. Qualquer sistema precisa de função de monitor. Existem dois dados secundários que precisam ser monitorados. Um lado é a fonte de dados, o volume de dados e a precisão precisam ser monitorados. O alarme das exceções de dados nos ajudará a encontrar a exceção antes das reclamações dos clientes. O outro lado são os dados da operação comercial. Faça a validação cruzada de dados de pelo menos duas dimensões das operações de negócios, tanto quanto possível.
  2. Qualquer sistema precisa de função de log. É necessário manter um rastreamento dos registros de operação durante a operação do sistema. Porque o registro da operação é útil para solução de problemas.
  3. Para manter os documentos que tratam da estrutura e design do sistema atualizados a qualquer momento. Os documentos não incluem apenas bancos de dados, campos, API e serviços associados. Uma vez que qualquer problema de conteúdo ocorra, ele pode ser localizado diretamente da fonte, e o impacto do problema pode ser avaliado com precisão localizando o problema, de modo que a expansão do impacto possa ser interrompida a tempo, mesmo se houver upstream e downstream ou outras relações relacionadas em vários sistemas.
  1. Uma vez ocorrido o incidente, confirme se a função possui um plano de comutação ou backup. Desligue a função ou ative programas de emergência.
  2. Localize o problema diretamente de acordo com os documentos do sistema e os registros da operação.
  3. Contrate com o proprietário dos sistemas upstream, downstream e outros relacionados, informe o problema e a superfície de impacto.
  4. Trabalhando para corrigir o problema. Enquanto isso, conte todos os usuários afetados por esse problema e envie a lista de usuários e como tratá-los para o sistema de chamada.
  5. É indispensável para corrigir dados e backup de dados.
  6. Após o incidente, resuma as causas, processo e acompanhamento em um relatório de incidente.