Он хорошо показывает отклонение. Но почти никогда не объясняет его причину.
Впервые по-настоящему сильный пример продуктовой работы с метриками я увидела на инцидентах в логистике Ozon.
Меня тогда впечатлило не только то, как быстро замечали отклонение, и как быстро давалась корректная коммуникация, а то, как команды собирались на разбор и шаг за шагом восстанавливали реальную цепочку влияния.
Последовательно подключались команды, которые могли влиять на метрику напрямую и косвенно, вплоть до операций.
И довольно часто оказывалось, что метрика показывала не источник, а следствие:
- ❗️Локальный сбой
- ❗️Ручной процесс
- ❗️Накопленный эффект из соседнего процесса
- ❗️Исключение, которое долго жило вне общего поля зрения
- ❗️Неудачный релиз
Для меня в этом и есть разница между смотреть на дашборд и реально работать с метрикой.
После сигнала важно не просто быстро реагировать, а:
- 💡 не принимать цифру за готовое объяснение
- 💡 разбирать цепочку влияния
- 💡 отделять источник проблемы от следствия
- 💡 смотреть не только в точку сбоя, но и на смежные и косвенные влияния
Потому что дашборд помогает быстро увидеть отклонение Но это еще не значит, что у тебя уже достаточно оснований для вывода



Дискуссия