基于SSM的企业数据清洗平台设计与实现
摘要:随着信息化技术的不断发展,企业相关业务产生的数据量急剧增加。由于企业不同系统所使用的数据库和数据约束规则不尽相同,往往会产生大量的冗余数据和异常数据,不利于后期的分析统计。企业数据清洗平台是按一定的清洗规则对不同数据库中的数据进行过滤,去除冗余数据和异常数据,并将剩余的数据进行统一存储和管理。从而有利于后期的统计与挖掘,为企业的发展和决策提供必要的数据支持。
关键词:数据清洗;SSM;数据冗余;maven
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)25-0073-02
Abstract: With the continuous development of information technology,Enterprise business data has increased dramatically.Because of database and binding rules used by enterprises are different, a large amount of redundant data and abnormal data are often produced, which is not conducive to the analysis and statistics in the future.Enterprise data cleaning platform can filter data in different databases according to certain cleaning rules, remove redundant data and exception data, the remaining legal data are stored and managed uniformly。Which is conducive to later statistics and data mining,and providing necessary data support for enterprise development and decision-making.
Key words: data cleaning; SSM; data redundancy; maven
1 背景
随着信息化技术的不断发展,企业的日常业务处理都在向自动化、智能化转型升级。尽管信息化技术提高了企业的办事效率、节约了一定的成本,但与之而来的“数据灾难”也是企业需不得不考虑的问题[1]。目前,企业通常采用各种专业的信息化软件进行业务处理,每个软件的架构、数据库、约束规则不尽相同,这就导致了业务数据分散、异库存储,伴随而来的冗余数据、异常数据不断增加,不利于企业对数据进行分析统计,挖掘规律,业务数据的潜在价值没有得到充分发挥。因此,对不同数据库中的数据进行集中过滤、将满足规则的数据集中入库是业务数据发挥潜在价值的前提基础[2-4]。
目前,市面上有不少成熟的数据清洗平台,例如百度、阿里云等大公司都提供了数据清洗相关的业务。但是,这些平台根据业务量收取费用,这对大多数企业,尤其是刚刚起步的中小型企业是无法承受的。基于SSM的企业数据清洗平台是一个基于web技术的企业数据清洗平台,该平台主要提供数据类型、自定义验证、值集验证、一致性验证、模版外键验证、唯一性组验证等数据校验规则。用户可以根据自己需求创建私人定制的清洗规则,方便快捷。该平台能很好地满足初创企业对数据清洗的需求,降低成本,提高数据清洗效率、准确性。为企业带来更好的竞争优势。
2 系统设计
2.1 架构设计
企业数据清洗平台基于SSM框架(Spirng+SpringMVC+MyBatis)进行开发[5]。采用分层设计思想,将系统分为表现层、业务逻辑层、数据访问层,各层之间耦合度低,通过接口实现调用,从而确保系统的灵活性、可维护性、扩展性较强[6-8]。其中,表现层由Spring MVC框架实现,数据访问层由MyBatis框架实现,而Spring框架负责业务逻辑与其他两个框架的管理。系统整体架构如图1所示。
2.2 功能设计
企业数据清洗平台主要采用用户自定义的数据清洗原则,将不同业务软件数据库中的数据进行过滤和清洗,将符合规则的数据进行集中存储,从而有利于后期的统计和挖掘。系统整体分为系统管理、应用管理、数据采集三大功能模块,主要功能包括:模版管理、数据录入、多模版录入、维度管理、数据源管理、用户管理、用户组管理。数据清洗平台总体功能如图2所示。
2.3 数据库设计
企业数据清洗平台采用MySQL作为底层数据库,根据业务逻辑设计数据库表,使数据以低冗余、易扩充、结构清晰的形式存储在关系型数据库中。平台数据表主要包括:数据字典表、用户表、角色表、模板表、模板列表、模板外键表、维度表、数据源表等。
3 系统实现
3.1 MyBatis数据库连接配置
3.2 模板管理模块实现
模板管理子模块包括对模板的类型管理、定义管理、权限管理、验证规则管理等。其中,模板定义是数据清洗平台所有操作依赖的基础。模版对应具体数据源中具体数据库中具体的表。所有用户自定义规则都依附并作用于模版。模版定义伪代码实现:
3.3 维度管理模块实现
4 结束语
本文介绍了基于SSM的企业数据清洗平台设计与实现过程,通过该系统使用,用户可以根据需要自定义清洗规则,通过简单的配置与操作就可以完成对数据的清晰。尽管该平台不具备市面成熟的数据清洗平台复杂的功能,但它能很好地满足中小型企业对数据清洗的需求,降低企业成本,提高数据清洗效率和准确性,为企业带来更好的竞争优势。
参考文献:
[1] 卿苏德, 吴博. 大数据时代亟需强化数据清洗环节的规范和标准[J]. 世界电信, 2015(7):35-60.
[2] 杜岳峰, 申德荣, 聂铁铮, 等. 基于关联数据的一致性和时效性清洗方法[J]. 计算机学报, 2017(1):92-106.
[3] 朱会娟, 蒋同海, 周喜, 等. 基于动态可配置规则的数据清洗方法[J]. 计算机应用, 2017, 37(4):1014-1020.
[4] 陳永红, 廖欣, 郑欣, 等. 面向健康大数据的数据清洗技术[J]. 现代计算机:专业版, 2017(6):21-25.
[5] 李洋. SSM框架在Web应用开发中的设计与实现[J]. 计算机技术与发展, 2016, 26(12):190-194.
[6] 邹红霆. 基于SSM框架的Web系统研究与应用[J]. 湖南理工学院学报:自然科学版, 2017, 30(1):39-43.
[7] 魏书寒. 基于SSM框架的图书管理系统的设计与实现[J]. 工业控制计算机, 2017(7):133-134.
[8] 刘昊, 李民. 基于SSM框架的客户管理系统设计与实现[J]. 软件导刊, 2017(7):87-89.
上一篇:原油管道无害化处理技术及应用