功能概述

为了方便用户及时发现容器服务的异常状况,保证业务的稳定性和可靠性,企业云平台建议用户为所有生产集群配置必要的告警策略。

告警指标

QKE 与云监控 CloudSat 对接,通过在 CloudSat 中设置指标告警规则,用户可以及时发现容器服务的异常状况。QKE 支持的告警指标如下表所示。

说明

监控指标的最大值、最小值、平均值及总和,是指在一个监控周期内,指标的最大值、最小值、平均值及总和。

指标 监控周期 单位/取值 说明 配置建议

正在运行的 Pod 数量

5分钟

整数,>= 0

集群节点上运行的 Pod 数量

根据节点类型进行配置,例如:4c/8g时,阈值建议配置为 20。

数据盘使用率

5分钟

%,[0, 100]

节点内数据盘使用量占总量之比

如果持续 1 分钟超过 80%,建议告警。

系统盘使用率

5分钟

%,[0, 100]

节点内系统盘使用量占总量之比

如果持续 1 分钟超过 80%,建议告警。

内存使用率

5分钟

%,[0, 100]

节点内内存使用量占节点总量之比

如果持续 1 分钟超过 50%,建议告警。

CPU 负载

5分钟

核,整数,>= 0

节点内已使用的内存

如果持续 1 分钟超过 CPU 核数,建议告警。

CPU 使用率

5分钟

%,[0, 100]

节点内 CPU 使用量占节点总量之比

如果持续 1 分钟超过 50%,建议告警。

apiserver 的连通性

5分钟

1 表示正常
0 表示异常

apiserver 是否能正常连接

如果持续 1 分钟,一直为 0(异常),则表示 apiserver 连接异常。

操作步骤

创建告警策略

  1. 通过 Web 浏览器登录企业云平台的 Console。

  2. 在顶部菜单栏中选择产品与服务 > 容器服务 > 容器引擎 QKE,默认进入容器引擎 QKE 快速入门页面。

  3. 点击左侧导航栏的集群管理,进入集群列表页面。

  4. 点击目标集群名称,默认进入集群概览页面后,点击左侧导航栏的集群运维 > 告警管理,进入告警管理页面。

    alarm_mgt
  5. 点击 + 创建告警策略,弹出创建告警策略对话框,用户根据页面提示信息,填写相关参数。参数填写说明如下。

    参数 说明

    策略名称

    自定义告警策略名称。

    资源类型

    选择 应用服务 > 容器引擎 QKE

    关联资源

    选择目标 QKE 集群或指定为 全部资源

    告警逻辑

    根据实际需求,选择触发告警的逻辑为 任意全部 指标超过设定阈值。

    告警逻辑

    根据实际需求,选择触发告警的逻辑为 任意全部 指标超过设定阈值。

    添加规则

    根据实际需求,按照告警格式,添加告警规则。目前,QKE 支持的告警指标,可参考前文说明

    发送通知

    当告警规则被触发时,是否发送通知给指定对象。

    • 选择 ,则需根据实际需求继续填写告警通知相关参数,包括通知时间间隔、次数、对象、时间段等。

    • 选择 ,则告警规则被触发时,不会发送通知。

  6. 确认参数填写无误后,点击立即创建,告警策略创建成功。

修改告警策略

用户可根据需求,修改 QKE 集群已创建的告警策略。

说明

仅支持修改告警规则与告警通知。

  1. 延续前文步骤,进入 QKE 集群的告警管理页面。

  2. 在 QKE 集群的告警管理页面,点击目标告警策略所在行末尾的编辑,进入该策略的编辑页面。

  3. 告警规则区域,可修改告警逻辑,进行规则的添加、删除等操作。

  4. 告警通知区域,可修改通知相关参数。

  5. 确认上述参数修改无误后,点击保存,更新规则。

删除告警策略

  1. 延续前文步骤,进入 QKE 集群的告警管理页面。

  2. 点击目标告警策略的 ID,进入云监控 CloudSat 告警策略页面。

  3. 在告警策略页面,勾选待删除的目标告警策略后,点击列表左上方的删除,弹出确认对话框,确认操作无误后,点击删除,完成操作。