配置nagios监控HA集群（二）

作者佚名技术来源 Linux系统浏览发布时间 2012-04-13

而这一段具体说明了监控集群的两个方面：一个是节点的监控（如我们上一篇所实验的那样,具体的监控）；第二个是集群的监控.节点的监控举例告诉我们如果有5个节点的集群跑DNS服务,那么在localhost.cfg文件里面需要定义5个独立的服务,利用check_dns插件来完成.并且强调了：在这里的监控关闭通知,我们能在CGI界面上看到相应的监控状态.那么nagios需要通知的是什么呢？想象下：一个维护人员不可能一天二十四小时都趴在机房里等着出问题吧？刚刚说集群如果宕机了一个或者几个节点,但是服务还是在正常的运行,没必要现在就赶着去把那几台宕掉的机器弄好吧？或者那几台被fence device重启了你也大老远的白跑一趟么？只有当集群或者服务真的出问题了或者运行得不稳定了我们才要引起重视,没必要为单独的一台服务器的小毛病把自己的生活都弄得乱七八糟吧,维护人员是要掌握系统,而不是被系统掌握！

这里还提到了用来监控集群的模块check_cluster,我们再来想下,本来我们在进行节点监控的时候已经获得了很多监控数据了,那现在监控集群又要再多去监控一遍么？没必要吧,这里提到check_cluster模块是利用nagios本身的缓存cached的数据,这就不用再重新去获得数据,而直接对数据进行分析,大大节省了资源.那么这些cached的数据存放在哪里呢？/usr/localhost/nagios/var/目录下一个叫status.dat的文件里：

我们可以看到大量的数据,而check_cluster就是从这些数据里得到相应的然后进行分析的.废话不多说了,开始定义check_cluster（command.cfg里默认是没有定义的,要手动写进去）：

参数的意思我们可以用--help来查看下,这里设置了4个参数：第一个我也不知道什么意思,估计是个名字标识吧随便写了,第二个warning的级别定义,第三个critical的级别,第四个等下我们来解释,下面再定义一个命令用来监控服务：

然后定义localhost.cfg:

是监控服务的定义warning的级别是1,critical是2,也就是1台宕机了warning,2台就critical了,后面的$SERVICESTATEID $HOSTSTATEID是

本文出自 “no2实验室” 博客,请务必保留此出处http://linuxfan.blog.51cto.com/1842325/427900

凌众科技专业提供服务器租用、服务器托管、企业邮局、虚拟主机等服务，公司网站：http://www.lingzhong.cn 为了给广大客户了解更多的技术信息，本技术文章收集来源于网络,凌众科技尊重文章作者的版权，如果有涉及你的版权有必要删除你的文章，请和我们联系。以上信息与文章正文是不可分割的一部分,如果您要转载本文章,请保留以上信息，谢谢!

上一页 1 2

分享到：更多

你可能对下面的文章感兴趣

上一篇: rsa算法下一篇: webmin,非常棒的Linux管理工具

关于配置nagios监控HA集群（二）的所有评论

随机推荐