快速云:云计算信息技术在市场监管领域的实现路径研究

摘要:探索云计算技术在市场监管领域的应用,进一步加快市场监督管理信息化建设,利用“云计算”“大数据”实现数据与监管的深度融合,可以打破机构改革后原工商、质监、食药监、物价、知识产权等业务间的“信息孤岛”状态,通过数据整合、关联分析实现精准监管、创新监管,从而构建从粗放到精准的市场监管体系。本文通过案例分析云计算信息技术在市场监管领域中的应用,从数据采集、数据整合、数据处理、数据治理等方面进行了研究。

快速云:云计算信息技术在市场监管领域的实现路径研究

1 概述

在现代化、信息化的监管需求和新型网络市场的发展要求下,基于云计算信息技术的“智慧市监”是顺应当前信息化浪潮以及应对市场监管新形势、新挑战而产生的一种新型监管模式。

在市场监管大数据模式下,由于大数据的诸多特性,使大数据监管模式较传统市场监管有很多值得推广借鉴的地方,一是通过数据共享平台可以大幅削减“信息孤岛”,使政府内部纵向层级、横向部门甚至跨区域、跨国界得以流畅协同,有利于在监管中及时发现问题、解决问题;二是通过大数据的归集、分析,能够较为精准的刻画出市场监管领域的“主体画像”“客体画像”“行为画像”等,为政府部门在制定监管政策或采取监管措施时可以精准化、个性化;三是基于政务数据的共享开放,可以改善过去信息不对称的状态,大大增加政府的透明度,提高政府行政效率,有助于提高政府公信力。而云计算技术,作为大数据模式开展验证的必要手段,以俨然和大数据结合为一个整体,不可分离。

2 市场监管大数据的采集整合及治理

2.1 数据采集

目前市场监督管理局数据来源广泛,包括原工商、食药监、质监、知识产权、物价等部门的数据,由于数据来源广泛,数据格式较为繁杂,数据标准不够统一,技术体系存在难点,对互联网数据整合利用的程度还有较大提高的余地。现阶段市场监管领域的业务数据采集方面主要途径有以下几个方面。

1)市场监管业务系统。全省目前使用同一套系统,在省和地市进行两级部署,实施时充分考虑与13个地级市,核心数据是主体登记注册信息,是目前最主要的数据来源之一。各地市的系统数据会定时归集到省局数据中心。2)企业网上填报数据。目前企业主体可以通过企业信用系统公示系统、政务服务网市场监管旗舰店等填写年报信息、即时信息等数据,定时从政务外网归集到省局数据中心。3)市场监管信息平台。主要指部署在电子政务外网,省級部门共用的系统。各部门之间会使用和补充提供相关数据,其中市场监管局主要提供市场主体信息,同时定时从政务外网统一归集到省局数据中心。4)互联网数据。针对互联网上存在的海量信息,基于人工智能和语义分析技术,实现互联网大数据采集和结构化转换。互联网数据主要包括消费者网络舆情、互联网广告、电商平台网店及其经营数据等,通过购买第三方服务的方式,可以获得企业舆情、企业运营情况、电商商品评论等数据,丰富市场监管大数据分析。

展开全文

为此,在保持传统市场监督管理局业务的数据采集途径稳定运行的前提下,项目利用互联网建设大数据时代的数据采集新途径,不断丰富数据来源,逐步规范数据标准,是目前首要突破的关键问题。

2.2 数据整合

1)基于云计算平台的网络互连。建设互联网合作伙伴数据标准,在公网设立数据采集服务器,通过网闸设备把互联网合作伙伴的数据单向传输到政务外网。建设提供多种主流数据采集接口,包括文本文件、Excel文件、数据库、消息队列、Webservice等接口,满足互联网合作伙伴数据上传需要,如图1所示。

2)数据便签与分类。通过给业务数据打标签的方式并结合行业主流分类方式,建立互联网数据行业标准和市场监督管理局标准,通过机器学习、语义分析、人工智能等大数据信息技术,实现互联网新增数据类型到国家市场监督管理局标准的自动归并,实现互联网数据与市场监督管理局内部业务数据的整合。通过结合各部门行业标准,建立各部门标准到国家市场监督管理局标准的映射对照关系,实现各部门市场监管数据的整合。

2.3 数据治理

对于数据质量的管控,可以从数据整合、数据预处理、资源入库、资源监控、资源利用等数据处理流程的各个环节入手,提升数据在市场监督管理局分析决策等业务中的使用价值,发挥数据作为资产真正的作用。

从图2看出,数据质量面向的是整个业务流程,从业务库到ETL再到数据仓库都可以通过用户自定义的数据质量规则进行管控。校验规则分为准确性、完整性和一致性三种,分别面向三种不同的校验方案。业务库和数据仓库中的已有数据可以直接进行在线质量规则校验。ETL过程中,可以通过质量规则定义提供的数据清洗服务进行数据的清洗。同时,两个或者多个数据源之间可以进行数据比对。用户可以通过选择比对数据源,自定义比对规则,进行在线数据比对。比对的结果可以反映出不同库的表与表之间的数据差异,进一步解决数据质量问题。数据质量校验的方式分为全部校验和抽样校验,执行方式分为手动执行和定时执行。下面对各个环节细分详述。

1)数据治理规则的制定。质量规则分为两部分:规则列表和对象列表。通过这两部分可以正向和反向地进行数据质量校验。所谓的“正向”指的是先定义规则,在规则上选择数据目录与规则条件后,执行检测。“反向”指的是直接选中某个数据目录,进行数据质量校验。定制的规则可以选择建议处理方式(人工处理和定时处理),方便以后使用该规则进行质量检测时找到最佳的处理方式。2)自动化监控数据流转。通过以上的一系列数据识别、数据比对、数据检测,系统可以自动定期生成个性化的数据质量检查报告,形象具体的描述数据质量问题所在及处理情况,具体分为业务数据质量报告和技术数据质量报告。3)数据检测及对比。数据检测主要包括数据完整性检测、数据一致性检测、数据准确性检测及数据及时性检测四个方面内容。而为了保证同步后的数据库与源库的一致性,需要建立一系列的比对规则,来检验数据是否一致,一般来说都是采用增量比对的方式,这种方式可以减少重复比对的工作量,对于一些比对可以直接进行修复,有些比对可能需要通过发邮件进行通知方式告知用户,手动进行数据的修复。4)数据质量评级。针对数据集的缺失、元数据的不匹配、数据的不准确等数据质量问题,数据管理平台制定了客观的评分规则,对每个数据目录进行统一打分评级,并提供了完善的管理系统在线预览数据质量评分排名、有问题的数据、各项数据质量问题的明细等。

3 云计算信息技术在市场监管数据中心的应用

数据中心基于主流的大数据处理和互联网构建技术进行搭建,这些技术是构建PB级数据处理和百万级用户并发访问的必要技术。数据中心技术体系架构的开放体系如图3,包括五个层次。

1)以Hadoop体系为主的大数据存储体系,包括分布式文件系统和分布式列式数据库,提供统一、安全、灵活、可扩展的存储系统。内存存储技术也是存储体系重要的组成部分,内存存储涉及分布式缓存、内存数据库等技术领域。2)在数据采集和数据交换体系,根据不同的数据类型、不同的源数据库采用不同的工具,包括用于从结构化数据到Hadoop采集的sqoop软件,ETL工具软件kettle,用于收集日志的flume工具等。3)数据处理技术体系,包括离线计算、流式计算、内存计算、机器学习、搜索引擎等,分别应对不同的使用场景。4)集群管控平台,整个分布式集群需要统一进行管理,平台技术生态体系中开发了统一的管控平台,包括分布式任务调度系统,资源管理系统、数据安全与访问控制体系、服务监控与管理系统。5)大数据处理管理体系与工具,用于数据的生命周期管理,包含从数据建模、元数据定义、数据关系、数据可视化、数据服务化等过程。

3.1 数据存储

1)分布式文件系统。市场监管大数据涉及图像、音频、视频等大量非结构化文件,并随着应用的发展不断增长,需要通过分布式文件系统来存储。通过采用Hadoop分布式文件系统(HDFS)存储市场监管领域相关的图像、音频、视频等非结构化文件,可以实现市场监督管理局大数据相关图像、音频、视频等非结构化文件的海量高效可靠存储,构建HDFS的分布式集群。2)分布式数据库。数据库是平台的价值核心,各类有价值数据都将存储在数据库中,高效、安全、可靠的数据库是平台稳定运行的基础,当今主流的大型互联网大数据架构模式中,一般会混合使用关系数据库和NoSQL数据,关系数据库用于处理事务型的核心业务,NoSQL数据库用于处理海量低价值密度业务。分布式数据库支撑服务将从关系数据库集群和分布式NoSQL数据库两方面建设。3)分布式缓存。为了减少对存储设备的频繁读取,提升高峰用户的访问效率,平台提供统一的分布式緩存软件,将变化较少但需要频繁读取的数据资源在数据库与应用之间增加高速缓存,可以有效降低数据访问层的压力,极大提升系统性能,同时也可以避免基于水平扩展架构的服务器其中发生宕机时,通过分布式缓存能够保证平台的高可用性。

3.2 分布式计算

市场监督管理局分析涉及来自多方面的各类数据,包括市场监督管理局内部数据、其他政府部门数据、互联网/移动互联网数据等,这些数据种类繁多、关系复杂、数据量非常大,依靠传统的数据查询技术和分析手段很难满足对旅游数据的计算分析需求,大数据支撑平台需要提供面向海量数据的计算分析能力。1)非实时海量数据统计,主要用来生成市场监督管理局汇总数据,一般是按月/季度/年等周期市场监督管理局数据,对实时性要求不高。2)实时数据计算处理,是对实时获取的数据进行计算处理并能够实时响应结果,主要特点是要数据吞吐量大、数据处理时效性高。3)实时数据查询,是根据用户输入的不同实时查询出不同的响应,系统不限制查询条件,用户可以自定义各种条件组合。实时数据查询使用户能随时面对市场监督管理局大数据,快速获得想要的结果。4)深度数据挖掘利用,是指从海量数据中通过人工智能、机器学习、自然语言处理等相关技术发现隐藏于其中的有价值信息。

而针对上述四种场景分类,本文提出对应的计算分析技术及方案:通过分布式批处理技术实现对海量数据的非实时计算;通过流式计算技术实现对实时数据的计算处理;通过海量数据交互式查询技术实现对市场监督管理局大数据的实时查询;通过数据挖掘技术实现对市场监督管理局大数据的深度挖掘利用。

基于云计算的大数据平台通过整合市场监督管理局内部系统数据、市场监督管理局相关部门数据、互联网数据等广泛数据资源,为市场监督管理局分析、印证提供了必要支撑。通过对来自多方面的纷繁复杂的大数据进行分析挖掘,找出蕴藏其中的有价值的信息,为市场监督管理局部门的总体分析、研判、指标评估提供依据。

4 结语

本文旨在以市场监管领域为研究对象,探索云计算技术在市场监管业务中的应用,以期进一步加快市场监督管理信息化建设,提升现代化市场监管能力。通过案例分析云计算存储技术在市场监管流程中的应用,对当前我国市场监管中数据应用存在的问题进行研究剖析,并从数据采集和整合、数据处理及质控管理等方面进行了实例研究。

发表评论