编者按:
随着数字化转型、数据身分市场化、高质量发展等宏观导向,数据价值愈发得到器沉。从最基础的数据架构到上层的数据利用,无论是金融机构还是金融科技厂商,都有着各自的理解与实际。人生就是搏科技在大数据领域始终维持足够的技术敏感度,将以本篇关于“数据架构”的探求为始,后续推出系列文章,与您一路索求更适合当下行业发展的数据观,欢迎各人持续关注。
作者|人生就是搏科技大数据钻研院
内容|本篇共3170字,预计阅读功夫10分钟
很久以来,数据架构一词的影响一向局限于很狭幼的专业领域领域之内,国内的数据治理工作根基都萦绕着数据尺度发展。2021年2月9日人民银行颁布《金融业数据能力建设指引》,对数据架构的意识正式提升到了行业高度,而把数据尺度改为数据规范,也算是各归其位了。
数据架构是什么
依照ISO/IEC/IEEE 42010:2011的架构界说:系统的根基组织,体此刻其组件、它们之间的关系和环境,以及治理其设计和演变的准则。
架构一词起源于构筑行业。若是说杜甫昔时盖茅屋不必要设计,那么建造现代广厦不成能没有设计图就开工了。

治理数据也必要架构。数据架构界说治理数据资产的蓝图,描述应该若何组织与治理数据,内容蕴含数据模型、数据界说、数据映射规范、数据流、结构化数据利用接口规范(DAMA DMBOK2)。数据架构必要持续动态地守护,并不比构筑架构设计单一。
国度尺度GB/T36073—2018《DCMM数据治理能力成熟度评估模型》关于数据架构的描述为:通过组织级数据模型界说数据需要,领导对数据资产的散布节造和整合,部署数据的共享和利用环境,以及元数据治理的规范。
那么若何解读数据架构?有哪些组件?组件之间的关系是什么?与哪些环境有关系?
数据架构有哪些组件
企业数据架构设计蕴含企业数据模型设计以及数据流设计(DAMA DMBOK2),这也是数据架构比力经典的内容。从零起头设计企业数据架构必要很长的功夫、很大的资金投入,并存在潜在的失败风险。在企业数据架构实际中,业界已有一些成熟的行业数据模型能够参考, 因而,通常情况下,最具体的数据架构设计文件是一个正式的企业数据模型。物理数据模型也是数据架构文件,但物理数据模型是数据建模和设计的产品,而不是数据架构。
DCMM的数据架构能力域蕴含数据模型、数据散布、元数据治理、数据集成与共享能力项,DCMM把在DAMA数据治理知识系统中独立的元数据治理、数据集成两个领域也蕴含进去了。DCMM尺度已被宽泛认可,一些当先的机构获得了数据治理能力成熟度四级或五级认证。
若何理解DCMM界说的数据架构组件关系
数据架构的主题组件是数据模型,领导数据散布与数据集成。
数据散布也是数据集成的必要输入。为提升数据集成与交互的效能,数据集成反过来对数据散布提出要求。
企业的数据模型、数据散布以及数据集成的设计文档都是元数据,若是没有这些元数据,组件之间的关系无法展示,用户就无法使用数据。
数据架构与利用架构、技术架构的关系
数据架构不能独立存在,站在企业架构的高度,与企业利用架构、技术架构有缜密的环境关系。
利用架构是数据架构的输入。数据的散布是数据在业务利用与数据利用系统中的散布,这些系统的业务职能决定了将产生哪些数据以及必要哪些数据,因而,利用架构设计决定了数据的散布,领导数据架构中数据界说、数据集成与交互等规划和管控工作。数据架构设计对利用架构的输入不应照单全收,利用系统中的数据模型设计应遵循企业数据架构,数据散布与集成的准则要求影响利用系统的职能散布。
数据架构是技术架构的输入。数据的集成交互与存储规划的需要是对技术架构提出的要求。技术架构是数据架构的落实基础支持,基于靠得住性、机能·、执行的复杂性、成本等思考的数据库软件、数据存储等技术选型可能反过来造约利用架构与数据架构。

数据治理领域的反思
自金标委成立三十多年以来,在推动金融数据尺度化方面获得了巨大成就,金融行业的数据治理水平一向处于当先职位;厥资葜卫砹煊蚓咛迨导使,仍有一些问题值得反思。
数据架构治理单一粗放
由于有便宜的存储设备能够选择,过度强调应采尽采(甚侄裣癌企业主张实时采集全域数据,数据采集无差距“大而全” ),过度强调非结构化数据的价值,没有对数据进行精密化区别治理,没思考过其中大部门数据可能没有任何价值,没有思考TCO与ROI,放任数据的膨胀。
数据治理与治理没有成立在企业数据架构基础之上
有些企业数据架构的治理不蕴含数据模型,仅限于数据分析平台(数据仓库或数据中台)的散布流转,数据集成仅限于从数据采集起头到数据利用。
在数据模型设计与数据集成过程中,忽视了企业数据散布(利用架构)的输入,可能导致所用数据并非权威数据源,甚至可能使用了谬误的数据,无法保障数据质量。
数据治理系统化与深杜仔待提升
有些企业数据的治理停顿在建章立造方面,有些企业成立了数据尺度但没有落地,意识到“同义分歧名、同名分歧义”,要统一术语概想,但没有上升到数据架构系统层面,很难获得内容性进展。
很多企业花鼎实力买通数据利用“最后一公里”,而不关注数据出产“最前十公里”。若是忽视数据问题产生的源头,事倍功半,最后一公里的利用很难有高质量的数据基础。
强调可用性,质量被忽略
有些金融企业在引入互联网解决规划时忽视了行业差距,为了提高可用性,不休提高数据不一致性等质量问题容错率;チ幸岛芏嘁滴癯【岸允葜柿康囊蟛桓,从统计角度只有满足肯定水平的类似性。而金融行业财政报表、合规监管等需要对数据质量的要求远高于互联网行业。
应该怎么做:
以企业级的架构视角来治理与使用数据
很多企业罕见据,无数据架构。数据架构处于无感的被动职位,技术选型后才谈数据架构,利用系统不思考数据架构根基要求。当技术平台穷于应酬,不能给客户带来好的履历时,不从数据架构、利用架构方面进行反思。
架构设计的性质是企业级顶层视角与系统化设计
清澈理解企业数据架构的性质,无论是数据治理或数据资产治理,还是数据仓库、数据中台或数字化转型,都应该站在企业级顶层视角,进行架构层面的系统化设计。
数据性命周期每个阶段的出产者、加工者都应该对自己设计的数据产品掌管,对自己的用户掌管。设计者的眼光不只有向前看,还要把稳到左右的利用架构与技术架构,还要向后看,意识到自己的设计工作是极度沉要的环节。
不变的架构来自抽象思想
架构应该是不变的。解决“同义分歧名、同名分歧义”的问题只是数据架构治理万里长征的第一步。即便数据模型的设计遵循数据尺度,仍解决不了性质问题,只有选取抽象的思想,剥离数据的噪声,抽象出业务的本体,能力产生不变的框架,并以结构化、系统化来表白或展示。
与数据治理协同
数据治理是数据架构的另一关键环境成分。数据架构的指标最终必要通过与数据治理的协调一致能力实现,数据架构掌管正确地做事,数据治理确保(依照数据架构)做正确的事。
把企业数据模型作为数据治理工作的产出物
从成立企业概想数据模型动手,让各父叩人意识到企业数据模型的沉要性,在数据建模中系统化治理数据,在数据治理中逐步美满形成企业数据模型,领导数据在企业各系统的散布与集成,支持利用系统的数据沉用与火速开发。
治理数据资产的全性命周期
成立数据即资产的数据资产观,在日常工作中成立成本与收益意识,从数据的产生起头治理,使数据的设计者、出产者、加工者与治理者都意识到在数据的全性命周期中都投入了成本,优化数据治理生态,实显祗业级的数据集成,驱动数据资产价值的最大化。
成立数据分析生态系统
结构化与非结构化数据有分歧的价值密度,必要分歧的处置技术与流程。数据分歧的性命周期,价值密度也不一样。必要成立美满的数据分析生态系统 ,有效治理各类分歧状态、分歧性命周期的数据,为分歧用户提供高质量的数据以及敦睦的履历。
结语
企业数据的治理是一项持续的工作,不成能毕其功于一役。业务在发展变动中,数据架构也要同步更新。很多企业执行数据中台并没有带来数据治理能力的提升,也没能给用户提供高质量的数据,若是不站在企业的架构视角,数据治理与数据架构脱钩,各行其是,再换个马甲也无用。