Como o gerente de produto lida com incidentes online?
Dec 03 2022
O pano de fundo deste artigo é um incidente aconteceu. A causa do incidente foi devido a um dado incorreto.
O pano de fundo deste artigo é um incidente aconteceu. A causa do incidente foi devido a um dado incorreto. Não percebemos o incidente até recebermos as reclamações dos clientes. Nesse meio tempo, encerramos todos os serviços relacionados à fonte de dados incorreta para evitar a propagação do impacto. Após esse incidente, resumi algumas metodologias sobre como lidar com incidentes online.
Reflexão
- Qualquer sistema precisa de função de monitor. Existem dois dados secundários que precisam ser monitorados. Um lado é a fonte de dados, o volume de dados e a precisão precisam ser monitorados. O alarme das exceções de dados nos ajudará a encontrar a exceção antes das reclamações dos clientes. O outro lado são os dados da operação comercial. Faça a validação cruzada de dados de pelo menos duas dimensões das operações de negócios, tanto quanto possível.
- Qualquer sistema precisa de função de log. É necessário manter um rastreamento dos registros de operação durante a operação do sistema. Porque o registro da operação é útil para solução de problemas.
- Para manter os documentos que tratam da estrutura e design do sistema atualizados a qualquer momento. Os documentos não incluem apenas bancos de dados, campos, API e serviços associados. Uma vez que qualquer problema de conteúdo ocorra, ele pode ser localizado diretamente da fonte, e o impacto do problema pode ser avaliado com precisão localizando o problema, de modo que a expansão do impacto possa ser interrompida a tempo, mesmo se houver upstream e downstream ou outras relações relacionadas em vários sistemas.
- Uma vez ocorrido o incidente, confirme se a função possui um plano de comutação ou backup. Desligue a função ou ative programas de emergência.
- Localize o problema diretamente de acordo com os documentos do sistema e os registros da operação.
- Contrate com o proprietário dos sistemas upstream, downstream e outros relacionados, informe o problema e a superfície de impacto.
- Trabalhando para corrigir o problema. Enquanto isso, conte todos os usuários afetados por esse problema e envie a lista de usuários e como tratá-los para o sistema de chamada.
- É indispensável para corrigir dados e backup de dados.
- Após o incidente, resuma as causas, processo e acompanhamento em um relatório de incidente.