首页 >> 栏目1

厦门航空企业数据共享思考与实践
时间:2020-04-17| 编辑:wangyaling|【

大家下午好!我是来自厦门航空信息部的赵晓磊,目前负责厦航的大数据应用及数据治理方面的工作,我们公司在今年的战略解码会上提到了6大硬仗,其中之一就是推进公司的数字化转型,在我们IT部门接到这个任务后,也做了相应的任务分解,核心都是围绕如何帮助企业用好数据,让数据可以发挥更大的价值,持续赋能业务,那么我今天的汇报内容结合公司数据治理体系、信息安全体系,介绍下厦航在数据资产梳理、数据共享平台建设等方面的一些探索实践,以及未来工作中数据共享工作如何进一步推进,我们的一些思路和规划,与大家共同分享探讨,因为数据共享也没有一个固定的范式和套路,不足之处也请各位行业专家批评指正。

首先说一下为什么要做数据共享?一个原因在于我们过去信息化建设过程中,累积下来的不同程度的数据孤岛问题,数据孤岛这个词大家都不陌生,我们再往深剖析一下,如果说国际贸易的本质是各个国家和地区的资源禀赋不同,因而物品的(交换、流通、交易)这些贸易活动能带来社会生产力的提升。那么数据共享的本质在某种程度上也是因为各个实体的数据产生、处理、应用能力的差异,这种差异在企业内部不同领域间也存在,所以才需要数据这个新生产要素的充分流通。另外还有,当前越来越多的数据分析和算法挖掘应用需要用到跨领域的数据,比如我们厦航在17年和阿里、同济大学合作的航班智能恢复课题,仅靠一个部门的系统和数据是很难完成的,需要外部天气、空管资源、机组人员、收益等信息的支持,当时还没有较好的内部数据共享机制,到处找数取数花了项目组前期相当大的工作量。而要解决这些问题,推进实施数据共享是最好的办法。

数据开放、共享之所以能够帮助提升数据的价值,还在于数据的另一个本质属性。那就是相比于实物的交换与共享,数据的共享有更大的威力,数据可以无损复制,可以很简单的被其他团队或组织使用,而且这个成本非常低,理论上如果让数据有效流动起来,其产生的效益会趋向无穷大。互联网的成功就是因为他激发了网络效应,数据的流动也与之类似,数据如果只是自己使用,即使100%的发挥价值,它也只是一百,如果这个数据开放给更多人用,即使数据只能发挥50%的价值,那也是乘数效应。互联网有一个的著名的“梅特卡夫定律 (Metcalfe’s Law)”:网络的有用性(价值)随着用户数量的平方数增加而增加。数据的价值与网络的价值类似,也遵循这一规律,即数据的价值与数据的使用次数的平方成正比。

此外,做数据共享这件事也是我们团队本身的使命要求,我们厦航新时代的公司使命是:帮助更多的人行走天下,我所负责的数据团队使命是:帮助更多的人用好数据,让大家可以更方便的用数据进行业务创新,同时也能够很好地实现,厦航总书记赵东在内部会议,多次提到的一个目标,就是“让数据站起来、跑起来、活起来”。

这是我们做数据共享的一个总体思路,我们从三个方面开展,第一梳理企业内部数据,建立数据地图,提供高效的数据检索方案,解决“厦航有什么数据”、“数据存放在哪儿” 等问题,为数据共享奠定基础。第二建立严谨、安全的数据获取原则,通过平台提供多样化数据获取方式,使大家能够便捷地获取所需要的数据。第三,从制度上规范数据共享工作,明确数据共享的目标、职责,定义数据共享的方法,编订《数据共享管理办法》,建立数据共享监督与保障机制,确保数据共享能够长期、有效实行。

接下来讲一下我们当前的一些实践,我们第一步是梳理信息系统,有很多企业在推行Togaf这套企业架构的方法论,是从业务、应用、数据、技术四个架构层面进行建设,我们做数据共享这件事的时候也有借鉴这套方法论,从应用架构层面来看,应用是数据的载体,经过了近30年的信息化建设,厦航绝大多数的业务操作过程、结果数据都沉淀在了各类应用系统上,我们对其进行全方位的梳理形成信息系统主数据,详细内容如图,包含业务域到产品线再到系统、接口、作业,也基于此形成数据共享分类的初始层级结构。

第二步是建设数据目录,我们在2019年建设并上线了《企业数据共享平台》,把数据库的元数据信息与上一步梳理的信息系统主数据进行关联,并组织应用负责人对元数据信息进行业务标签维护,打通技术元数据和业务元数据,并把相关结果以目录方式向企业内部开放,共享平台还利用中文分词技术提供元信息模糊搜索,进一步方便大家去查找数据。

第三步是建设数据图谱,借鉴知识图谱技术,以航空公司核心的业务对象,例如旅客、飞机等,从接口关联、元数据血缘关系等方面,以业务流程视角进行组织串联,全方位展示相关主题数据的关联关系,这块工作我们目前正在持续完善,从图中可以看到,以乘客实际的业务流程为主线,把各个环节的数据以数据流图的方式展示,用一种更直观的方式方便大家了解数据的上下游以及流转关系,使得大家在使用数据的时候更能够心中有数。

第四步是促应用,数据共享的价值体现最终还是要通过应用来体现,在这方面,我们在《企业数据共享平台》上,提供了从数据查询、技术支持、应用案例这样一系列服务,这里的技术支持是我们信息部门目前积累的技术能力展示,这里重点关注大数据应用、数据分析的一些技术展示,应用案例是我们已经做过的一些数仓和算法应用,借此引导更多的数据分析人员贡献数据使用案例,从数据的应用层面也进行一定程度的共享,避免重复的开发工作。

最后一个是数据安全,这个也是数据共享过程中无法回避的一个问题,先讲一下我们内部对数据安全定位的认识,这张图是现在内部的信息安全管理体系、数据治理体系,数据安全的定位在这两个体系的交叉部分,其中隐私数据保护又作为数据安全的一个子集,也就是两个体系都有数据安全的要求,但关注点和要求不同,我们在开展的过程中也是综合两个体系要求整体协调推进,与此同时,编写和发布了数据共享、数据安全相关的管理手册,并把安全的指标纳入了公司和部门的绩效考核体系,初步形成了数据安全的闭环管理。

以下简单介绍以下我们做数据共享以来带来的一些积极变化:第一、信息域数据共享方面:上游连通信息年度规划、采购预算,下游连通应用管理、系统运维理,提高IT工作效率;第二、数仓宽表共享方面:避免重复建设,维度统一,跨域数据整合,提高营销、财务等领域数据分析工作效率;第三、数据应用建设方面:通过统一的数仓建设,开放数仓建设成果,加速推进各领域数据决策分析、算法研究的应用。

再聊一下我们接下来的一些规划,一个是在数据共享的方式上,我们希望提供更多样化、更便捷的方式给大家去使用,我们在今年也开展了基于企业数据仓库的数据中台建设,目标就是实现数据的一个资产化管理和服务化开放,在提高数据开发效率的同时,可以持续地把更多高质量、集成程度高、更贴近业务分析场景的数据集或者数据产品提供给大家使用。

第二个是关键共享数据的防护,就像前面讲过的,我们数据治理和信息安全两个体系都有涉及数据安全,在GDPR提出以后,隐私数据的保护在近几年也被各个公司提到了非常重要的一个位置,如何在数据共享的同时,避免出现数据不安全事件,建立起可靠的隐私数据保护体系也是我们今年的一项战略任务,我们数据团队也在配合公司的数据合规师,根据相关法规和ISO27000标准的安全要求,从数据责任认定、业务评估与差距分析、技术管控方案等方面,体系化的开展相关数据保护工作。

最后做一个小结,1、数据共享作为数据治理管理内容的一部分,需要依赖企业的数据治理工作体系化推进,而企业在进行数据治理建设时,要建立符合自身情况的数据治理规划,外面的体系、标准要结合当前公司的现状进行合理的解读,分清主次开展相关工作。2、要想彻底解决数据问题,需要管理好数据的全生命周期。现在企业的普遍问题是只管理上线以后的数据,这并不能从根本上解决数据问题,其实数据治理应该从需求阶段就开始了,要管理好整个数据的生命周期,在事前系统化、流程化地保证规范的落地,在事后通过数据检核,查漏补缺,以此来实现数据的全方位管控。

以上是我这次分享的内容,也欢迎后面进一步讨论交流,谢谢各位的聆听!