Как менеджер по продукту справляется с онлайн-инцидентами?

Dec 03 2022
На фоне этой статьи произошел инцидент. Причиной инцидента стали неверные данные.
Фото Лучана Алекса на Unsplash

На фоне этой статьи произошел инцидент. Причиной инцидента стали неверные данные. Мы не осознавали инцидент, пока не получили жалобы клиентов. Тем временем мы отключили все сервисы, связанные с неправильным источником данных, чтобы избежать распространения последствий. После этого инцидента я обобщил некоторые методологии обработки онлайн-инцидентов.

Отражение

  1. Любые системы нуждаются в функции монитора. Есть две дополнительные данные, которые необходимо отслеживать. С одной стороны, исходные данные, объем данных и точность должны контролироваться. Тревога исключений данных поможет нам найти исключение до жалоб клиентов. Другая сторона - данные о бизнес-операциях. Насколько это возможно, перекрестно проверять данные по крайней мере из двух аспектов бизнес-операций.
  2. Любым системам нужна функция логирования. Необходимо вести учет операций во время работы системы. Потому что запись операции полезна для устранения неполадок.
  3. Постоянно обновлять документы, касающиеся структуры и дизайна системы. Документы включают не только базы данных, поля, API и сопутствующие услуги. Как только возникает какая-либо проблема с контентом, ее можно определить непосредственно из источника, и влияние проблемы может быть точно оценено путем определения местоположения проблемы, так что распространение воздействия можно вовремя остановить, даже если есть восходящие и нисходящие или другие связанные отношения в нескольких системах.
  1. После того, как инцидент произошел, подтвердите, есть ли у функции план переключения или резервного копирования. Выключите функцию или активируйте аварийные программы.
  2. Найдите проблему непосредственно в соответствии с системными документами и записями операций.
  3. Заключите договор с владельцем вышестоящей, нижестоящей и других связанных систем, сообщите о проблеме и поверхности воздействия.
  4. Работаем над устранением проблемы. Тем временем подсчитайте всех пользователей, затронутых этой проблемой, и отправьте список пользователей и способы их обработки в систему вызовов.
  5. Это необходимо для корректировки данных и резервного копирования данных.
  6. После инцидента обобщите причины, процесс и последующие действия в отчете об инциденте.