Prometheus 实现 podDown 实时告警
一、需求
每个 pod 重启/删除时,都能发出告警。要及时和准确。
二、告警架构
集群部署在 k8s 上,告警使用 Prometheus + alertManager + prometheusManager,helm 方式部署。
三、实现
根据 pod 容器状态判断,容器状态为 notReady 时,触发告警。需要注意的是缩短采集间隔到 15s,让重启 pod 数据别漏过去。 告警规则
alert: PodDown # 15s 采集 + 15s 扫描规则,规则是1分钟前存在 pod 为 not ready 的 pod,15s 扫描一次的间隔,至少能扫描 3次,所以一定会发送
expr: min_over_time(kube_pod_container_status_ready{pod!~".*job.*|backup.*|minio-backup.*|clean-docker|dynamic-in
共有 0 条评论