如何解决Prometheus的告警管理问题?
Prometheus发展到今天,已经全面接管了 K8s 上的监控体系,形成了一套以它为核心的统一方案,但监控依然是云原生领域非常让人头疼的问题之一。
一方面是因为监控非常重要,直接关系到应用的高效、平稳运行;另一方面,云原生使监控更加复杂了,除了业务方面,集群、节点、Service、Pod 等等维度众多,并且还要应对短时间内不断变化的现实,同时还面临降低资源开销的挑战。
拿告警来说,现实困境包括:
没有告警:系统装箱过度,导致节点 CPU 100%,业务已崩而调度器还在不停调度Pod;
海量告警=没有告警:一天 200 个告警电话,处理一个告警的时候同时又收到10个告警;
可自愈的告警不该告警:周末背着电脑和朋友聚餐,接到告警电话立马处理,登录系统后发现已经自动恢复,关上电脑结果又出现告警…
在具体的监控指标规划上,业界通用的两个原则是 USE 和 RED 。
从资源监控指标来看,如节点和容器的资源使用情况等等,需要考虑利用率(Utilization),资源被有效利用起来提供服务的平均时间占比;饱和度(Saturation),资源拥挤的程度,比如工作队列的长度;错误率(Errors),错误的数量。
从服务监控指标来看,比如 kube-apiserver 或者某个应用的工作情况,要考虑每秒请求数量(Rate)、每秒错误数量(Errors)、服务响应时间(Duration)。
怎么样,是不是感觉实现起来复杂度挺高的?
今天给你推荐一个监控方面的优质公开课:Prometheus 监控体系构建:架构设计与告警实现,腾讯技术专家孟凡杰原理+实操结合,帮你扫清监控方面的障碍,掌握可复制的解决方案。
公号粉丝0元领👇
添加后
获取免费报名链接和配套课件哦~
📢本专题不适合学生群体
如有相关编程经验可酌情考虑
另外,公号粉丝还加赠
云原生领域经典电子书
及Prometheus拓展学习文档
千万别错过!
公开课里含2节视频课,8大内容要点,包括以 Prometheus 为核心的监控系统的架构设计以及如何实现有效告警。让你在建立对监控体系的整体认知基础上进一步实操,对企业级的应用做到心中有数。
如果你存在以下困惑都建议你来学习一下:
对 Prometheus 上手难有怨言
对通过修改配置文件来管理 Prometheus 的方式有痛点
对因为数据量过大而无法扩展您的 Prometheus 感到有困扰
在生产环境运行多套 Prometheus 集群面临管理和使用上的不便
在企业数字化转型过程中对于如何架构适合您的云原生监控方案有困惑
添加后
获取免费报名链接和配套课件哦~
📢本专题不适合学生群体
如有相关编程经验可酌情考虑