当前位置:首页 > CACTI监控项目相关注释
生产环境常用监控图相关注释
说明:
生产环境是采用开源软件CACTI监控机器性能使用状况,利用SNMP协议采集相关数据;最终图表不能100%正确反映出机器性能的使用情况,不过有比较大地参考价值;理论上,可以通过调整轮询频率提高图表的正确性,不过对网络环境要求相对较高;经测试,发现调整轮询频率为1分钟/次后,有比较多的SNMP Timeout,故目前轮询频率为5分钟/次。
2、 Current代表最新采样数据(实际是>=5分钟以前的数据),Avg代表平均值,
Max代表最大值,Total代表总和; 图表可能中会出现m,u等单位,如:current:233.36m/34u,或者没有单位;它们之间的换算如下: 1(无单位)=1000m=1000000u。
3、 每张图表最左边都会有其简单说明;纵坐标显示数值(具体会按最大值同步增大)
,横坐标是单位时间,想看更具体时间图可选择图表后点击进入细节。
4、 发现有部分机器的图数据时有时无,日志显示:snmp timeout,初步断定是
网络不稳定导致。
1、
一、NIC Traffic(网卡流量图)
1、 Traffic默认是按Bytes/sec显示(之前是按默认处理的),现调整为Mbits/sec;百兆网
络环境理论值为100MB/sec,不过实际上最大峰值一般不会超过10MB/sec。
2、 NIC Traffic我们采集两个项目:Inbound(入)&Outbound(出);如图Current:3.16
代表最新流量数据是3.16MB/sec。
二、DISK-IO(磁盘I/O)
(图1)
(图2)
1、 磁盘IO图表分为两部分,即具体I/O读写部分和I/O操作率部分。 2、 (图1)为具体的I/O读写部分。
Reads:每秒完成读I/O设备的次数(取iostat命令r/s值)。 Writes:每秒完成写I/O设备的次数(取iostat命令w/s值)。
Merged Reads:每秒进行merge的读操作数目(取iostat命令rrqm/s值)。 MergedWrites:每秒进行merge的写操作数目(取iostat命令wrqm/s值)。 2、(图2)为I/O操作率部分。
Utilization:每秒钟时间内,用于I/O操作时间的百分比(取iostat命令%util值)。 一般情况下,此值长时间持续接近100%,则说明分区I/O负荷繁重,分区可能出现I/O性能瓶颈;值得注意的是:我们生产监控目标实际是以分区为对象,而不是整块盘,分区I/O性能并不能完全代表磁盘I/O性能。
三、CPU
截取Linux top命令输出的各数值,其百分比最大值等于 逻辑核数*100%;如top输出8核CPU,则最大百分比为800%。 CPU监控各数值说明。
System: 内核空间占用CPU百分比。 User:用户空间占用CPU百分比。
nice:用户进程空间内改变过优先级的进程占用CPU百分比。 IOwait:等待输入输出的CPU时间百分比。 Interrupt:处理硬中断的CPU时间百分比。 SoftIPT:处理软中断的CPU时间百分比。
四、系统负载
Load Average 也是一种Linux CPU性能指标体现。 分为1、5、15钟等不同时间间隔的CPU平均负荷情况。
目前很多CPU支持超线程,也就是说物理上双核,逻辑上四核;Linux系统下可通过以下方式判断。
1、查看物理核数:cat /proc/cpuinfo |grep \
2、登录Linux shell环境,输入top命令,然后在top输出中 按数字 “1”键,就会显示
具体CPU核心数;若显示的核数与物理核数一致,则说明该CPU不支持超线程;若显示的核数是物理核数的两倍,则说明该CPU支持超线程;Linux系统是按逻辑CPU的个数处理进程请求的。
举例说明:若某Linux 机器top命令显示CPU核心数为8,此图1、5、15分钟的均数值小于8,则说明该Linux机器CPU负载在可承受范围内;若大于,则反之,不过重点看15钟的数值,时间范围越大,数值越高……
五、内存
此图是截取Linux Free命令的输出数值。
理论上,判断Linux是否存在内存不足瓶颈,最直接的方法是看Swap(相当于windows下的虚拟内存)分区有未被使用,若被使用,则说明内存不足瓶颈,反之亦然。 Linux已消耗内存“公式”为:Ram Total - (Free + Buffers+Cache)。
共分享92篇相关文档