引言:当“健康度”的概念引入到网络通信当中,我们必须有一个标准的评价系统来对网络的运行情况进行量化,对其运行和维护方面提供可行性的参考和支持,及时的解决网络中的一些问题。其健康度的评分系统是一套对硬件进行检测,严重警告的检查系统,对其网络系统进行实时监控运行状态的一种开放性的系统。系统对采集到的数据进行对比和参考进行分析,进行分值的评估客观地进行评价运行状态。对网络中可能出现的问题进行前瞻性的预见,达到进行预防和维护的目的。本文以容器云系统的健康度建模为例,进行健康度建模维护方面的阐述,期待为通信行业带来参考和借鉴。
移动5G网络逐步地进入到我们的生活中,人们对通信的要求也日益的增加。提供个性业务服务已经逐渐的代替了最初的承载语音的无线网络功能。定制的个性服务需求度网络提出了很大的机遇和挑战。因此,对于“健康度”建模提出了新的课题,因为硬件优化程度不够所引起的网络质量下降的问题日益凸显,用户的感知度也没得到切实的满足,所以,对硬件故障如何进行及时的预防和处理的问题成为当下关注的焦点。同时,云平台容器数量呈现爆炸式的数据增长状态,而在微服务的监控的软件指标种类繁多,其配置也很繁琐,通常是只给出了数据,对其系统的健康度没有具体的度量。在这样的大环境之下,进行基于粗糙云系统的健康度建模进行分析。云计算的快速发展,容器技术对原有的虚拟化技术有颠覆性的变化,自动配置和资源调度方面体现了不可替代的良好性能。其启动和终止的消耗很低的额特性,容器技术将很大云部署中的虚拟机进行了取代,实现了技术的大变革。
一、云平台与系统健康度建模
(一)容器云平台和传统的云平台相比,其监控指标呈现出爆炸式增长的状态,在服务器节点指标、应用性能指标和自定义指标方面进行了很大的提升。对于其监控的问题Prometheus系统展现了其一些优势,它是一套开源的报警框架监控系统,对细粒度的系统健康分析方面很缺乏,监控指标的复杂繁琐必须根据其业务情况进行资源整合才能对系统健康度进行反映。当下,进行容器的云平台研究都集中字数据分析和云资源的道德,进行监控指标的建模健康分析的一些讨论比较欠缺。
(二)对于容器云平台关于微服务的监控配置繁琐和指标复杂的问题,基于粗糙集的云系统健康度的建模方式被提了出来,建立健康度的指标可以直观反映出系统的健康度。从POD到NODE至整个集群,可以从多个维度和粒度进行整合数据的全局监控,运维人员对集群的实时情况进行有效的掌握,对其异常和错误进行准确的定位,同时容器云健康度进行建模,还度集群资源调度能力进行了有效的优化。
二、容器云系统建模
当前,学术界比较欠缺对容器云系统健康建模的研究,集中特定的应用背景下监控平台架构的设计和性能测试。很少有学者对系统的健康指标进行研究,采用的都是一种通用型的健康度评价体系。Seunghyun Seo是这方面的先行者代表,他们针对异构云平台的方案进行了提出,建议建立一套联合的监控系统,这套系统主要包括组件管理器、注册表管理器、聚合管理器和切片管理器四个部分组成。还经过Petri网的性能模型进行来了Kubernetes 性能分析,还设计出了弹性的应用程序,采用实验的手段证明了容器虚拟化极低的资源成本,几乎和裸机的资源成本相近,Leila Abdollahi Vayghan的架构进行了测试,证明微服务的中断高于预期。
云平台健康度的评价问题一般需要进行大量的决策,粗糙集由于其确定信息的特性被得到了广泛的应用,它的解决方案是潜在性的适合方案。对不确定性数据工具除了其粗糙集之外,还有概率论、模糊集等。粗糙集在云平台的研究还未开始,TeJen Su代表等人将模糊集利用到云系统的电力监控中,得到了其可行性应用。
二、运维监控和业务系统的健康
(一)运维监控
运维监控主要任务是对IT的基础设施、系统软件和硬件、维护进行其运行维护的监控。运维的监控系统时进行运维监控的主要支撑,运维监控的系统可以对IT设施及业务系统进行管理,对出现故障的问题进行及时的定位和报警,保障业务系统可以进行正常的运行。在大数据云计算的环境背景下,因为存储、计算和网络资源的高度密集,让云计算环境的业务更加的密集。这种的密集方式对运行维护的工作增加了很大的难度,集中的系统也因此变得越来越复杂,要对系统进行高效的运维监管和业务系统的科学性进行检测和评估,其方法显得尤其重要,它对资源的适应状况要进行及时地掌握,对潜在的系统故障问题要及时的发现,对业务服务器中断的隐患也要及时的关注,对业务系统的正常运行有关键性的作用。
(二)网元
云计算下IT运维监控系统进行管理最小的单位就是网元,它是管控系统中的管理细胞元。这种细胞元可以是软件、硬件设备,也可以是其设备中的某一个部件,比如:CPU、磁盘和内存等,也可以是软件中的一个组件如:数据库当中的用户和表空间等。网元一切被系统监视和管理的系统。
(三)业务系统和健康度
1.业务系统的又被称为业务支撑管理的系统,它是在进行业务处理工作中进行针对性带来支撑的信息系统。它可以进行某个项目的完成带来有力的支持。比如:办公自动化系统、交易支付系统等。不同的业务系统有一种普遍的过程,这样的过程被行业成为“周期”。“周期”包含5个步骤:首先是数据的输入,然后进行业务的处理,紧接着对文件及数据库进行处理,对文件和报告进行形成,最后进行其查询的处理活动。云计算环境中其业务一般都是由网络层、主机层和应用层构成。网络层包括路由器、防火墙和交换机等;主机层包括物理服务器,虚拟化的服务器和批处理服务器等。业务系统的数据通信由网络层承载,它负责数据的输入及输出的传递通道。云计算的环境中,其网络层的资源设备线路共享情况对业务系统中整个运行特别的重要。
2. 主机层负责业务系统的数据存储和处理,包括其实时处理和批处理。进行数据处理中,其中间处理和数据处理最终都要存储到文件或者数据库当中去,提供用户需要的查询信息和报告信息。应用层主要负责业务进行针对性的处理中一些应用软件,其应用软件在云计算中表现出更加复杂的功能,通常支持多用户的应用模式。
3. 业务系统的健康度衡量了其系统进行业务处理时的健康情况,对其运行质量进行了量化的处理,是有很多健康度的测评模型来共同进行计算来完成的。业务系统的运行质量不够,体现的是变慢或者是变坏的过程,不断电就不会直接的瘫痪。这样的变化过程最终会导致运行中的存储空间变小,内存被逐渐耗尽时系统软件就会崩溃了。进行业务系统的建模来进行系统的健康测评,及时发现隐患并进行问题的排除,对业务系统的正常运行有非常重要的意义。
四、业务系统健康度模型
检测服务是网元的一个检测指标,它有多个服务的选项,比如网络接口的网元来说,其带宽的利用率是一个服务项,它的进出数据的字节数又是另外单独检测的服务项。检测服务状态进行检测服务项的正常状态。比如网络接口中用一个数据表示通信正常状态,另外一个数据表示异常来进行检测,通过数据进行采集的方式直接从网元中提取数据采集,非常地灵活。
五、实现方案和验证
进行电信级的检测系统的研发过程中,必须利用数据模型来进行业务系统评估计算,本文提及的字段比数据模型当中所含有的字段要少,只对一些相关的数据进行列举。进行数据模型的定义后,采用5个步骤来进行计算。
(一)第一步:首先进行数据的采集,进行所有检测服务项目的状态,并将采集掉的数据依次写入相应的字段。第二步:利用评估计算模型对其进行精确地计算,并将所有计算得出的检测服务项的健康度写入与其相对应的字段中。第三步:对前两个步骤进行连接查询,获取每个网元所对应的检测服务项的集合,继续写入第一步对应的字段中。第四步:进行所有数据评估的计算模型,获取相应的连接查询,并将评估计算结果写入到前面对应的字段当中,对网元的业务度带来影响。第五步:对后两步进行连接查询,进行第三步中每个业务系统当中的网元业务影响度,利用其评估的计算模型来对每个业务系统的健康度进行计算。
(二)通过以上的分析我们可以看出,评估计算和云端协同其业务系统的健康度约72%,对第三步的业务运行情况有非常直观的反映。其检测系统进行实现的方案当中,由于数据采集的周期性因素,其业务系统的健康度呈现出动态化状态,对业务系统进行评估健康度做出门限值的设定。一旦超出门限值,系统对运维监控人员发送短信或邮件,提醒其注意动态变化。运维管控人员收到系统的提醒可以准确的找到问题的根源,及时对其问题进行调整和修复,很大程度的提高了运维人员的工作效率,运维监控人员不需要对海量的告警细节进行全面关注,从而对业务系统的动态进行实时的掌握,同时也帮助了运行质量的提高。
六、结束语
对健康度建模的一些相关因素进行了分析,在云计算的业务环境背景下,进行健康度的系统建模。这样的模板对复杂的运行和维护提供了可行性的方案,让运维的监控人员可以从海量的告警分析和实时监控的复杂工作中解脱出来,同时还实现了云端运行的健康状态进行实时的掌握和监控,从而保证业务系统高效健康的运行。