type
status
slug
summary
tags
category
icon
password
new update day
Property
Oct 22, 2023 01:31 PM
created days
Last edited time
Oct 22, 2023 01:31 PM
因为上学期间太常时间没有使用家里的 ESXI 服务器,导致 root 密码忘记了,于是将原来的 ESXI 系统格式化为了 Ubuntu 20.04 系统,于是一开始的 Grafana + Prometheus 监控中心,也一并下线了。
最近为了提高对系统运行状态了解,以及保证服务运行的稳定,决定重新配置监控中心。在这里记录一下这个过程。

1 前期准备

1.1 安装运行环境

  • 安装 prometheus
  • 安装 cadvisor
  • 安装 docker

1.2 配置 prometheus

  • 配置 prometheus
/etc/prometheus/prometheus.yml
  • 配置 cadvisor (cadvisor 默认监听端口为 8080 如果冲突可根据下面的示例修改)
/etc/default/cadvisor

1.3 访问测试

url://ip:9090
notion image

1.4 启动 Grafana 容器

  • docker-compose.yaml

1.5 访问测试

ip:3000 或者 traefik 配置的域名
notion image

2 配置 Grafana

2.1 配置数据源

http://localhost:9090 填入并进行保存即可。
notion image

2.2 导入 Grafana 面版

在这里推荐几个官方分享的比较好的面版。
以及我自己写的一个关于 Traefik 的面版文件。
展示
notion image
 

2.3 告警设置

前面的 docker-compose 文件中已经配置好相应的 SMTP 的环境变量,现在我们需要在 Grafana 内部进行告警规则的设置。
现在以 Node Exporter Full 面版为例。
notion image
点击 Alert 分栏。点击下方的新建告警规则的蓝色按扭。这里我们以 CPU 的 Idle 为测量标准,即如果 Idle 时间少于 20%,则认为 CPU 繁忙。
notion image
其中 Idle 栏目是 F 栏,于是将 F 作为 G 的输入,并取最新值,然后输入到门限控制栏,选择小于 0.2 即可。

2.4 配置通知渠道

选择告警界面,连接点,配置 Email 通知的默认邮箱,可以多个邮箱,配置完成后可进行发信测试。
notion image
  • 告警信息展示
notion image
 
Linux 学习 - Make a driver changeBPF 学习系列之 - execsnoop Trace new processes via exec() syscalls.