告警管理
功能概述
为了方便用户及时发现容器服务的异常状况,保证业务的稳定性和可靠性,企业云平台建议用户为所有生产集群配置必要的告警策略。
告警指标
QKE 与云监控 CloudSat 对接,通过在 CloudSat 中设置指标告警规则,用户可以及时发现容器服务的异常状况。QKE 支持的告警指标如下表所示。
| 说明 |
|---|
监控指标的最大值、最小值、平均值及总和,是指在一个监控周期内,指标的最大值、最小值、平均值及总和。 |
| 指标 | 监控周期 | 单位/取值 | 说明 | 配置建议 |
|---|---|---|---|---|
正在运行的 Pod 数量 |
5分钟 |
整数,>= 0 |
集群节点上运行的 Pod 数量 |
根据节点类型进行配置,例如:4c/8g时,阈值建议配置为 20。 |
数据盘使用率 |
5分钟 |
%,[0, 100] |
节点内数据盘使用量占总量之比 |
如果持续 1 分钟超过 80%,建议告警。 |
系统盘使用率 |
5分钟 |
%,[0, 100] |
节点内系统盘使用量占总量之比 |
如果持续 1 分钟超过 80%,建议告警。 |
内存使用率 |
5分钟 |
%,[0, 100] |
节点内内存使用量占节点总量之比 |
如果持续 1 分钟超过 50%,建议告警。 |
CPU 负载 |
5分钟 |
核,整数,>= 0 |
节点内已使用的内存 |
如果持续 1 分钟超过 CPU 核数,建议告警。 |
CPU 使用率 |
5分钟 |
%,[0, 100] |
节点内 CPU 使用量占节点总量之比 |
如果持续 1 分钟超过 50%,建议告警。 |
apiserver 的连通性 |
5分钟 |
1 表示正常 |
apiserver 是否能正常连接 |
如果持续 1 分钟,一直为 0(异常),则表示 apiserver 连接异常。 |
操作步骤
创建告警策略
-
通过 Web 浏览器登录企业云平台的 Console。
-
在顶部菜单栏中选择产品与服务 > 容器服务 > 容器引擎 QKE,默认进入容器引擎 QKE 快速入门页面。
-
点击左侧导航栏的集群管理,进入集群列表页面。
-
点击目标集群名称,默认进入集群概览页面后,点击左侧导航栏的集群运维 > 告警管理,进入告警管理页面。
-
点击 + 创建告警策略,弹出创建告警策略对话框,用户根据页面提示信息,填写相关参数。参数填写说明如下。
参数 说明 策略名称
自定义告警策略名称。
资源类型
选择
应用服务>容器引擎 QKE。关联资源
选择目标 QKE 集群或指定为
全部资源。告警逻辑
根据实际需求,选择触发告警的逻辑为
任意或全部指标超过设定阈值。告警逻辑
根据实际需求,选择触发告警的逻辑为
任意或全部指标超过设定阈值。添加规则
根据实际需求,按照告警格式,添加告警规则。目前,QKE 支持的告警指标,可参考前文说明。
发送通知
当告警规则被触发时,是否发送通知给指定对象。
-
选择
是,则需根据实际需求继续填写告警通知相关参数,包括通知时间间隔、次数、对象、时间段等。 -
选择
否,则告警规则被触发时,不会发送通知。
-
-
确认参数填写无误后,点击立即创建,告警策略创建成功。
修改告警策略
用户可根据需求,修改 QKE 集群已创建的告警策略。
| 说明 |
|---|
仅支持修改告警规则与告警通知。 |
-
延续前文步骤,进入 QKE 集群的告警管理页面。
-
在 QKE 集群的告警管理页面,点击目标告警策略所在行末尾的编辑,进入该策略的编辑页面。
-
在告警规则区域,可修改告警逻辑,进行规则的添加、删除等操作。
-
在告警通知区域,可修改通知相关参数。
-
确认上述参数修改无误后,点击保存,更新规则。
删除告警策略
-
延续前文步骤,进入 QKE 集群的告警管理页面。
-
点击目标告警策略的 ID,进入云监控 CloudSat 告警策略页面。
-
在告警策略页面,勾选待删除的目标告警策略后,点击列表左上方的删除,弹出确认对话框,确认操作无误后,点击删除,完成操作。