¿Cómo maneja el gerente de producto los incidentes en línea?

Dec 03 2022
El trasfondo de este artículo es un incidente ocurrido. La causa del incidente se debió a un dato incorrecto.
Foto de Lucian Alexe en Unsplash

El trasfondo de este artículo es un incidente ocurrido. La causa del incidente se debió a un dato incorrecto. No nos dimos cuenta del incidente hasta que recibimos las quejas de los clientes. Mientras tanto, cerramos todos los servicios relacionados con la fuente de datos incorrecta para evitar propagar el impacto. Después de este incidente, resumí algunas metodologías sobre el manejo de incidentes en línea.

Reflexión

  1. Cualquier sistema necesita función de monitor. Hay dos datos laterales necesarios para ser monitoreados. Por un lado, es necesario monitorear los datos de origen, el volumen de datos y la precisión. La alarma de las excepciones de datos nos ayudará a encontrar la excepción antes de las quejas de los clientes. El otro lado son los datos de operaciones comerciales. Realice una validación cruzada de los datos de al menos dos dimensiones de las operaciones comerciales tanto como sea posible.
  2. Cualquier sistema necesita función de registro. Es necesario mantener un seguimiento de los registros de operación durante la operación del sistema. Porque el registro de operaciones es útil para la resolución de problemas.
  3. Mantener actualizados en todo momento los documentos relativos a la estructura y diseño del sistema. Los documentos no solo incluyen bases de datos, campos, API y servicios asociados. Una vez que ocurre cualquier problema de contenido, se puede ubicar directamente desde la fuente, y el impacto del problema se puede evaluar con precisión localizando el problema, de modo que la expansión del impacto se pueda detener a tiempo incluso si hay aguas arriba y aguas abajo o otras relaciones relacionadas en múltiples sistemas.
  1. Una vez que ocurrió el incidente, confirme si la función tiene un cambio o un plan de respaldo. Apague la función o active los programas de emergencia.
  2. Localice el problema directamente de acuerdo con los documentos del sistema y los registros de operación.
  3. Contrato con el propietario de los sistemas aguas arriba, aguas abajo y otros relacionados, informar el problema y la superficie de impacto.
  4. Trabajando en solucionar el problema. Mientras tanto, cuente todos los usuarios afectados por este problema y envíe la lista de usuarios y cómo manejarlos al sistema de llamadas.
  5. Es indispensable para corregir los datos y la copia de seguridad de los datos.
  6. Después del incidente, resuma las causas, el proceso y el seguimiento en un informe del incidente.