AWS CloudWatch — базовый инструмент для мониторинга инфраструктуры, приложений и сервисов в AWS. Его задача — собирать метрики, логи и события, а затем помогать быстро замечать сбои, деградацию производительности и аномалии.
Что можно мониторить через CloudWatch
- EC2: CPU Utilization, Network In/Out, Disk I/O
- RDS: загрузку БД, свободную память, latency
- Lambda: ошибки, duration, throttles
- Load Balancer: количество запросов, 4xx/5xx ошибки
- ECS/EKS: состояние контейнеров и нагрузку
- Кастомные метрики приложения через CloudWatch Agent или API
Базовая настройка CloudWatch
Проверьте стандартные метрики
Большинство AWS-сервисов уже отправляют базовые метрики автоматически. Начать можно без дополнительной настройки.Подключите логи
CloudWatch Logs нужен для анализа ошибок и событий.
Например:
• логи EC2 через CloudWatch Agent
• логи Lambda — автоматически
• логи приложений из контейнеров через Fluent Bit / FireLensСоздайте Dashboard 📈
Сведите в одну панель ключевые показатели: CPU, memory, response time, error rate, количество запросов. Это помогает видеть состояние системы без переключения между сервисами.Настройте Alarm 🚨
CloudWatch Alarm срабатывает, когда метрика выходит за порог.
Примеры:
• CPU > 80% в течение 5 минут
• RDS FreeStorageSpace ниже заданного минимума
• Lambda Errors > 0
• ALB 5xx растут выше нормального уровняПодключите SNS-уведомления 📩
Alarm обычно отправляет событие в Amazon SNS, а дальше — в email, Slack, webhook или Lambda для автоматической реакции.
Хорошая практика настройки алертов
- Не ставьте слишком чувствительные пороги — будет alert fatigue
- Используйте период оценки, например 3 из 5 минут
- Разделяйте critical и warning алерты
- Создавайте алерты не только по инфраструктуре, но и по бизнес-метрикам
- Проверяйте, кто и как получает уведомления
Что часто забывают
- Memory и disk usage EC2 не всегда доступны “из коробки” — нужен CloudWatch Agent
- Один только CPU не показывает реальную картину
- Без логов метрики часто не помогают быстро найти причину инцидента
- Алерт без понятного action owner бесполезен
Полезные функции CloudWatch
- Logs Insights — быстрый поиск по логам 🔍
- Anomaly Detection — поиск отклонений без жёстких порогов
- Composite Alarms — объединение нескольких условий
- EventBridge integration — автоматизация реакции на события ⚙️
Минимальный набор для продакшена
- Dashboard по основным сервисам
- Алерты на CPU, память, ошибки, latency, 5xx
- Централизованный сбор логов
- SNS-уведомления в командный канал
- Регулярный пересмотр порогов и шумных алертов
CloudWatch — не просто “графики AWS”, а основа наблюдаемости. Если настроить его правильно, команда быстрее замечает проблемы, сокращает время реакции и снижает риск простоя. ✅
Подборку каналов про IT — с практикой, новостями и полезными разборами — стоит посмотреть отдельно.