Prometheus 实现 podDown 实时告警

一、需求
每个 pod 重启/删除时,都能发出告警。要及时和准确。
二、告警架构
集群部署在 k8s 上,告警使用 Prometheus + alertManager + prometheusManager,helm 方式部署。
三、实现
根据 pod 容器状态判断,容器状态为 notReady 时,触发告警。需要注意的是缩短采集间隔到 15s,让重启 pod 数据别漏过去。 告警规则
alert: PodDown # 15s 采集 + 15s 扫描规则,规则是1分钟前存在 pod 为 not ready 的 pod,15s 扫描一次的间隔,至少能扫描 3次,所以一定会发送
expr: min_over_time(kube_pod_container_status_ready{pod!~".*job.*|backup.*|minio-backup.*|clean-docker|dynamic-in

Prometheus 实现 podDown 实时告警最先出现在Python成神之路

版权声明:
作者:倾城
链接:https://www.techfm.club/p/14937.html
来源:TechFM
文章版权归作者所有,未经允许请勿转载。

THE END
分享
二维码
< <上一篇
下一篇>>