400
正文

新一代论文电信全域数据采集平台发表探索

       进行了大数据的采集分发情况进行了研究,构建了大数据的框架,对分布式消息及任务引擎技术进行了阐述,系统的采集和处理服务业务的功能性模块,可以将大数据的规模度、持久性和高效率性进行很大程度的提升。

QQ图片20211009185016.png

一、架构设计和数据分析

(一)根据通信行业一些理论的持续发展,同时大数据技术的不断更新,传统的经营分析平台进行数据采集工作分发处理的架构阻碍了其业务发展。大数据为基础的经营平台进行数据采集主要对原有的平台以下方面进行提升:

1. 业务耦合度:原系统中业务与逻辑数据存在高度耦合的情况,导致了通用性和

2. 复用性较差,必须在新架构当中进行解耦的改善;

3. 处理实时性:原有框架进行实时性处理遇上要求高的任务时,无法对及时要求性的进行满足,必须构建一个可以对低延时进行支持可以实时进行计算的架构;

4. 任务统一性:遇上新增加一些实时性高的数据流任务之后,新的架构能将传统的数据流及工作流任务进行统一标准的管理;

5. 数据异构性:原有架构数据应对数据极小的仓库,数据在存储结构上呈现出了多样化变化,新的架构必须进行屏蔽数据异构性的考虑。

(二)系统新架构需求

1. 进行数据的计算和解耦

       如今BI的领域中的应用持续更新,应用的数量也变得越来越多。其应用可以分成三个部分,分别是数据、计算和逻辑,当中计算和逻辑可以进行算的 表示。因此,应用尽管再多,也中分成数据和算法两个方面。进行查看、排序分组时,数据和应用是息息相关的,可以进行算法的重复使用。

传统中的应用程序都隐藏字数据当中,因此其计算资源的用度就比较低。必须靠某种算法的对外提供的计算能力是不能满足需求的。因此新架构必须要对其数据处理中心进行分离,将常用的算法抽象炒年糕独立的计算组件或者单元,这样的计算单元不属于哪一个特定的应用,它是一种通用的计算能力。大数据采用这些组件进行预先配置的逻辑进行计算,不同的组件经过计算后产生出不同的数据结果。这样的数据和计算进行分离的技术让管理变得更加地简单便捷,其数据管理只进行数据的组织和访问进行关注,同时计算只进行算法、任务和服务方面进行管理和关注。

2.数据的实时要求

       传统的经营分析使用的是Hadoop架构,对其批处理、离线、响应速度比较慢的对数据的准备过程比较重视,只能进行静态数据的处理,对响应方面缺乏保证。之前按天、月为时间周期的模式转变成实时出来的时间方式。对其架构的要求提出了新的要求,特别需求一个支持低延时的实时进行计算的新架构。进行了流水式大数据来进行实时性的处理,同时进行响应速度进行了很大的提高。

由于实时性的通信时代应用需求,以秒为周期的应用普遍应用到电脑和手机端,来进行各种智慧的大数据展现,基于5G的互联网和物联网和智能制造的很多领域当中。

3.进行任务统一管理

       传统电信进行分析平台的架构处理中,话单和流量清单都是按批次来进行处理 的,当下位置信息、上网访问信息和信令数据的采用,从业务对实时数据进行处理的需求进行了大幅度的提升。进行了开发量的考量和兼容平台批处理的分析和优化,创建出一个统一进行管理的任务单元,进行数据流在实时性任务与批处理

任务完成统一兼容的管理。

4.进行数据异构性进行屏蔽

       由于当前数据仓库的类型急速的增加,数据的存储与结构也呈现出多样化的状态,一些较为传统的数据处理方式已经不能胜任任务了,进行数据处理时由于数据的不同而产生的异构性必须要进行改善,进行新架构的设计中,对来源不同的 采集数据分发到目的不相同的多种存储器上。

进行应用的开发是以数据库为基础,不同类型的数据库需要应用来进行支撑,这样应用开发的发展性就无形地增加了。必须进行数据进行统一的采集并同时进行服务方式的分发的办法来进行数据异构性的有效屏蔽,让应用不用考虑数据其真实的物理部署问题。

(三)系统设计概要

       新一代经营分析平台其架构包含数据统一进行采集和分发、开发中心、数据中心、运维中心和数据中心五个部分功能模块组成。其五个功能模块相互独立,又相互协作完成系统的整体工作。

1.数据中心

      数据中心就是一种数据的服务封装功能模块,对外部系统进行数据的提供服务,对外部系统提供元数据和数据信息的访问。主要负责数据的收集组织、管理和存储其数据的对象,同时提供标准统一的数据访问的形式,你可以将数据中心当成一个DaaS来看待。 架构上主要分为三个层次的功能:第一层是抽象层,第二层是数据管理层,第三个是数据的访问。各个层次的功用都不相同,进行组合之后对数据的组织管控和访问得到了实现。

2.计算中心

      计算中心是一个进行资源整合的功能模块,主要负责管理算法的服务和任务,同时提供基础性的架构服务和任务运行,可以将它当成一个数据的加工厂。

3.开发中心

      开发中心主要负责软件的生产管理,为了实现各个实施环节得到软件的高效支撑,保证软件在生产发布和使用过程的无缝对接,同时对有效的项目实施的过程进行管理和控制。

4.运维中心

      运维中心的主要任务是实现整个平台的任务调度、能力管理、告警功能管理和系统的监控工作,它是整个框架的管理功能模块。

5.统一采集分发

      统一采集分发的服务对各种信息来源的数据采集进行技术的支持,同时将收到的数据集信息进行各种目的存储器的分发,同时进行存储;采集和分发的工作过程中进行加工和处理。对采集源处理和分发的目的进行灵活地适配,对任意目的数据进行合适的源头采集和同步。

(四)采集分发模块的架构

      采集分发是一个特别的独立功能模块,在其功能需求上有以下的一些特点:集中化和通用化可以进行采集和分发。传统的采集模式是一种网状的模式,对集中管理个监控的功能呈现出重复化的状态,导致资源利用率非常的低。新的架构对这样的弊端进行了有效地规避,采用的是一种星形采集的模型,将分发和采集进行了高度的集中,进行了资源利用率的很大提升。可以同时将人员来源的数据采用任意发向很多个分发场景目标当中。同时对全方位的采集场景进行全面的覆盖,对信息孤岛问题得到了轻松的解决,不会出现无法采集而导致数据库的缺少现象,对基础数据进行了极大地丰富。在处理速度方面也是得到了跳跃式的提升,对信息数据的时效性进行了保证,同时采用分布的采集方式,让扩展方式变得更加容易。被采集到的数据存储在数据中心,分发工作也由数据中心统一管理,处理效率提高的同时,数据量不易丢失因素保证了数据的质量。其部署方面的灵活性也是最大的优势,并且可以和不同的接口任意进行对接。

二、系统部署和测试

(一)测试环境及用例

      传统Hadoop 架构中对数据流方式无法完成对比测试的任务。本次根据水平扩展的测试方法,来检验 Storm 架构下不同 Worker 的进程数量进行系统性能进行提升的效果。测试目标是内存数据库当中不同的用户身份信息,各个地方的信息大小都是110M,各个地方信息存在于不相同的内存数据库中。将进行测试的用户随意分为三组,首先让第一组选择了 1 个地方,然后第二组选择了 4 个地方,最后第三组选择了 8 个地方。其Worker 德宝进程数量是 1 个、2 个、4 个和6 个,更新当中的内存数据库进行用户在线状态的字段为系统部署的测试方式。其测试的结果显示,同时进行很多个任务的数据源进行请求比单独处理一个数据源耗时更短,多个任务处理中的资源利用率上升让任务的处理的延时问题迎刃而解。

(二)Kafka 性能测试

       Kafka 是系统中各个不同功能部件最主要的信息数据枢纽中心,要进行整个系统的提升当中并发时的处理能力,有效存储各种不同来源的数据信息,Kafka是系统中核心的消息队列。 它通过顺序追加设计的方案数据进行方案的持久化,采用分区形式组织进行分布式架构处理,提高了系统吞吐量的能力和扩展性性能得提升。采用 Kafka 和 ActiveMQ,RabbitMQ 等与其他的消息系统作对比的测试,以此方式来校验性能。采用测试的手段我们得出结果:Kafka 数据的推送端有吞吐量和效率高两方面的绝对优势。并且可以根据集群节点发生变化的同时进行不同流量的数据输入情况进行适配,展现了其很好地伸缩性。

       当今 5G 网速大幅度提升,已经在2020年正式投入了商用,同时物联网技术也普及率极大的上升,物联网链接为电信运营商带来了很多的商机和挑战,很多超过想象到的数据类型和数据众多的应用场景爆发式的增长,产生出系统的海量数据,传统系统架构无法与云计算进行深度融合,要解决系统运行情况中监控的完善问题,进行具体耗时状态及群组资源使用实时情况,对数据流向进行监控性进行提升是我们未来研究的方向。


相关热词搜索:平台 数据采集 电信 新一代

热门期刊
027-59765396
联系地址 湖北省荆州市荆州区万达广场A栋504 周一至周五 09:00-17:30
友情链接: 会计培训班 | 老酒回收 | 出国留学申请 | 论文发表 | 企业培训系统 | Linux运维培训 |

网站地图

版权所有 Copyright © 2018 湖北帆云海文化传媒有限公司 www.xrqkw.com. All Rights Reserved ,鄂ICP备19020030号 如您在使用的过程中任何产品或技术性问题请反馈

编辑
顾问

联系客服

企业QQ,一对一编辑辅导发稿
QQ交谈 网页在线咨询

服务时间

周一至周五
08:30-17:30

服务
热线

18685220838
24小时服务热线:027-59765396

新一代论文电信全域数据采集平台发表探索

       进行了大数据的采集分发情况进行了研究,构建了大数据的框架,对分布式消息及任务引擎技术进行了阐述,系统的采集和处理服务业务的功能性模块,可以将大数据的规模度、持久性和高效率性进行很大程度的提升。

QQ图片20211009185016.png

一、架构设计和数据分析

(一)根据通信行业一些理论的持续发展,同时大数据技术的不断更新,传统的经营分析平台进行数据采集工作分发处理的架构阻碍了其业务发展。大数据为基础的经营平台进行数据采集主要对原有的平台以下方面进行提升:

1. 业务耦合度:原系统中业务与逻辑数据存在高度耦合的情况,导致了通用性和

2. 复用性较差,必须在新架构当中进行解耦的改善;

3. 处理实时性:原有框架进行实时性处理遇上要求高的任务时,无法对及时要求性的进行满足,必须构建一个可以对低延时进行支持可以实时进行计算的架构;

4. 任务统一性:遇上新增加一些实时性高的数据流任务之后,新的架构能将传统的数据流及工作流任务进行统一标准的管理;

5. 数据异构性:原有架构数据应对数据极小的仓库,数据在存储结构上呈现出了多样化变化,新的架构必须进行屏蔽数据异构性的考虑。

(二)系统新架构需求

1. 进行数据的计算和解耦

       如今BI的领域中的应用持续更新,应用的数量也变得越来越多。其应用可以分成三个部分,分别是数据、计算和逻辑,当中计算和逻辑可以进行算的 表示。因此,应用尽管再多,也中分成数据和算法两个方面。进行查看、排序分组时,数据和应用是息息相关的,可以进行算法的重复使用。

传统中的应用程序都隐藏字数据当中,因此其计算资源的用度就比较低。必须靠某种算法的对外提供的计算能力是不能满足需求的。因此新架构必须要对其数据处理中心进行分离,将常用的算法抽象炒年糕独立的计算组件或者单元,这样的计算单元不属于哪一个特定的应用,它是一种通用的计算能力。大数据采用这些组件进行预先配置的逻辑进行计算,不同的组件经过计算后产生出不同的数据结果。这样的数据和计算进行分离的技术让管理变得更加地简单便捷,其数据管理只进行数据的组织和访问进行关注,同时计算只进行算法、任务和服务方面进行管理和关注。

2.数据的实时要求

       传统的经营分析使用的是Hadoop架构,对其批处理、离线、响应速度比较慢的对数据的准备过程比较重视,只能进行静态数据的处理,对响应方面缺乏保证。之前按天、月为时间周期的模式转变成实时出来的时间方式。对其架构的要求提出了新的要求,特别需求一个支持低延时的实时进行计算的新架构。进行了流水式大数据来进行实时性的处理,同时进行响应速度进行了很大的提高。

由于实时性的通信时代应用需求,以秒为周期的应用普遍应用到电脑和手机端,来进行各种智慧的大数据展现,基于5G的互联网和物联网和智能制造的很多领域当中。

3.进行任务统一管理

       传统电信进行分析平台的架构处理中,话单和流量清单都是按批次来进行处理 的,当下位置信息、上网访问信息和信令数据的采用,从业务对实时数据进行处理的需求进行了大幅度的提升。进行了开发量的考量和兼容平台批处理的分析和优化,创建出一个统一进行管理的任务单元,进行数据流在实时性任务与批处理

任务完成统一兼容的管理。

4.进行数据异构性进行屏蔽

       由于当前数据仓库的类型急速的增加,数据的存储与结构也呈现出多样化的状态,一些较为传统的数据处理方式已经不能胜任任务了,进行数据处理时由于数据的不同而产生的异构性必须要进行改善,进行新架构的设计中,对来源不同的 采集数据分发到目的不相同的多种存储器上。

进行应用的开发是以数据库为基础,不同类型的数据库需要应用来进行支撑,这样应用开发的发展性就无形地增加了。必须进行数据进行统一的采集并同时进行服务方式的分发的办法来进行数据异构性的有效屏蔽,让应用不用考虑数据其真实的物理部署问题。

(三)系统设计概要

       新一代经营分析平台其架构包含数据统一进行采集和分发、开发中心、数据中心、运维中心和数据中心五个部分功能模块组成。其五个功能模块相互独立,又相互协作完成系统的整体工作。

1.数据中心

      数据中心就是一种数据的服务封装功能模块,对外部系统进行数据的提供服务,对外部系统提供元数据和数据信息的访问。主要负责数据的收集组织、管理和存储其数据的对象,同时提供标准统一的数据访问的形式,你可以将数据中心当成一个DaaS来看待。 架构上主要分为三个层次的功能:第一层是抽象层,第二层是数据管理层,第三个是数据的访问。各个层次的功用都不相同,进行组合之后对数据的组织管控和访问得到了实现。

2.计算中心

      计算中心是一个进行资源整合的功能模块,主要负责管理算法的服务和任务,同时提供基础性的架构服务和任务运行,可以将它当成一个数据的加工厂。

3.开发中心

      开发中心主要负责软件的生产管理,为了实现各个实施环节得到软件的高效支撑,保证软件在生产发布和使用过程的无缝对接,同时对有效的项目实施的过程进行管理和控制。

4.运维中心

      运维中心的主要任务是实现整个平台的任务调度、能力管理、告警功能管理和系统的监控工作,它是整个框架的管理功能模块。

5.统一采集分发

      统一采集分发的服务对各种信息来源的数据采集进行技术的支持,同时将收到的数据集信息进行各种目的存储器的分发,同时进行存储;采集和分发的工作过程中进行加工和处理。对采集源处理和分发的目的进行灵活地适配,对任意目的数据进行合适的源头采集和同步。

(四)采集分发模块的架构

      采集分发是一个特别的独立功能模块,在其功能需求上有以下的一些特点:集中化和通用化可以进行采集和分发。传统的采集模式是一种网状的模式,对集中管理个监控的功能呈现出重复化的状态,导致资源利用率非常的低。新的架构对这样的弊端进行了有效地规避,采用的是一种星形采集的模型,将分发和采集进行了高度的集中,进行了资源利用率的很大提升。可以同时将人员来源的数据采用任意发向很多个分发场景目标当中。同时对全方位的采集场景进行全面的覆盖,对信息孤岛问题得到了轻松的解决,不会出现无法采集而导致数据库的缺少现象,对基础数据进行了极大地丰富。在处理速度方面也是得到了跳跃式的提升,对信息数据的时效性进行了保证,同时采用分布的采集方式,让扩展方式变得更加容易。被采集到的数据存储在数据中心,分发工作也由数据中心统一管理,处理效率提高的同时,数据量不易丢失因素保证了数据的质量。其部署方面的灵活性也是最大的优势,并且可以和不同的接口任意进行对接。

二、系统部署和测试

(一)测试环境及用例

      传统Hadoop 架构中对数据流方式无法完成对比测试的任务。本次根据水平扩展的测试方法,来检验 Storm 架构下不同 Worker 的进程数量进行系统性能进行提升的效果。测试目标是内存数据库当中不同的用户身份信息,各个地方的信息大小都是110M,各个地方信息存在于不相同的内存数据库中。将进行测试的用户随意分为三组,首先让第一组选择了 1 个地方,然后第二组选择了 4 个地方,最后第三组选择了 8 个地方。其Worker 德宝进程数量是 1 个、2 个、4 个和6 个,更新当中的内存数据库进行用户在线状态的字段为系统部署的测试方式。其测试的结果显示,同时进行很多个任务的数据源进行请求比单独处理一个数据源耗时更短,多个任务处理中的资源利用率上升让任务的处理的延时问题迎刃而解。

(二)Kafka 性能测试

       Kafka 是系统中各个不同功能部件最主要的信息数据枢纽中心,要进行整个系统的提升当中并发时的处理能力,有效存储各种不同来源的数据信息,Kafka是系统中核心的消息队列。 它通过顺序追加设计的方案数据进行方案的持久化,采用分区形式组织进行分布式架构处理,提高了系统吞吐量的能力和扩展性性能得提升。采用 Kafka 和 ActiveMQ,RabbitMQ 等与其他的消息系统作对比的测试,以此方式来校验性能。采用测试的手段我们得出结果:Kafka 数据的推送端有吞吐量和效率高两方面的绝对优势。并且可以根据集群节点发生变化的同时进行不同流量的数据输入情况进行适配,展现了其很好地伸缩性。

       当今 5G 网速大幅度提升,已经在2020年正式投入了商用,同时物联网技术也普及率极大的上升,物联网链接为电信运营商带来了很多的商机和挑战,很多超过想象到的数据类型和数据众多的应用场景爆发式的增长,产生出系统的海量数据,传统系统架构无法与云计算进行深度融合,要解决系统运行情况中监控的完善问题,进行具体耗时状态及群组资源使用实时情况,对数据流向进行监控性进行提升是我们未来研究的方向。