收藏本站 | 联系我们

锐途科技

电话:0769-22682899

技术部贺工:15817779375

业务部李生:13528678687
                


联系锐途科技
全国咨询热线:0769-22682899

业务部李生:13528678687

技术部贺工:15817779375

公司地址:东莞市东城区世博广场K区1502B

关于监控系统的一些知识说明

文章出处: 人气:: 发表时间:2019-07-24 15:03:59
 
  东莞监控系统是企业基础设施的一部分,用于监测线上服务的稳定运行,更广义的说,它还可以用来监测商业指标,用户行为等等,不一而足。为了应对系统组件崩坏,我们引入了各式各样的技巧,例如负载均衡,故障转移,限流,熔断,隔离舱等等。
 
       然而,这些应对手段的引入,并没有改变我们非常需要监控系统的事实,东西坏了,不管怎么降低印象,让人知道,然后介入修复,这是必然要做的事情。特别地,让人注意到系统某个地方不对劲,这个需求不管是对于过去的SA,曾经的DevOps,现在的SRE,甚至未来的XYZ,都会是核心命题,要去努力解决。
 

 
  一般说来,只要是能被写脚本检查出来的东西,我们就能做监控;只要检查的东西是个数值,能够被量化,我们就能基于监控设计阈值,进而做报警。实在不好设计阈值的地方,尝试去做可视化,图表显示可以是个潜在的方向。报警和图表这两个都是附加的,写脚本也不算是很难的事情,真正难的是,我们决定到底要检查什么东西?我觉得答案不是简单的“这个进程挂没挂”,或者“这个服务丢了一个节点”这样的信息(并不是说不重要),而是要自顶向下的梳理业务。
 
        我们要去从用户(或客户)的角度出发,去历数他们的使用体验,在会被波及到地方,我们想办法加上监控。举个例子,“支付成功率”就是一个很不错的例子,当它骤然下跌,我们就要去排查到底是什么导致了这么严重的事故发生,这是很有价值的事情。
 

 
  检查的结果可以是离散的,也可以是连续的。离散的可以像是available/degraded/disrupted,连续的可以是0%~100%。关键的是,我们要引入工具分析这些数值。对数值分析得出有意义的结论将有助于给出合理的应急响应策略。它可以是简单的”成功率降低到低于50%“,也可以是对一组指标应用不同阈值zui后得出离散的值。反过来想,我们也可以在有事故发生的时候收集对应的监控指标,发现那些有异变的监控指标,嗅出更好的指标,不断改进,使其精确。
 
        以上是东莞监控厂家为大家总结的监控系统的一些知识,希望对大家有帮助!想了解更多信息请继续关注东莞市锐途网络科技有限公司,我们竭诚为您服务!
 

热线电话
电话咨询

微信优惠

微信公众号

扫一扫,有优惠哦!

在线咨询