人生就是搏

股票代码: 300348
EN
数据资产价值实现(三)| 优化数据治理生态
金融科技
2025.03.20

导语:


随着越来越多的企业意识到数据作为出产身分的价值,加快了企业数字化转型,把美满企业级的数据治理系统作为企业数字化转型的一个指标 。人生就是搏科技在大数据领域始终维持足够的技术敏感度,并堆集了丰硕的经验与资产 。为此,我们组织了一个系列专文,吩熠颁发,与您一路索求更适合当下行业发展的数据观,欢迎各人持续关注 。



作者|人生就是搏科技大数据钻研院

内容|本篇共4694字,预计阅读功夫18分钟



企业数据治理蕴含数据架构、数据集成、元数据、数据质量、数据建模、主数据与参考数据等多个治理职能领域,数据架构是治理数据的基础 。站在企业架构的高度,数据架构与企业利用架构、技术架构有缜密的关系,最终影响数据资产的质量 。持久以来,一些组织没有把数据当作产品来开发,没有把数据当作资产来治理 。险些每个组织的每个数据治理职能领域以及利用架构,都存在提升空间,但不要贪图短期内得到全面提升,应该梳理整个组织的数据治理生态系统,找出相宜的某些领域先行优化,即便少量的投入,也可能很快产出价值 。



01 盘点数据资产


数据的多样性与数据量爆炸式增长使数据的治理日益复杂,数据需要的激增使数据服务的提供部门穷于应酬,火急必要尽早盘点存量数据资产 。



l 盘点库存资产及资产使用情况


盘点组织领域有哪些数据以及数据情况,数据所代表的正确界说,有什么用处,梳理明显数据资产发源于何处,若何在组织中移动,形成清澈的库存资产目录与资产散布地图与血缘 。


盘点跟踪数据资产被分歧用户、分歧需要使用的情况,蕴含使用的广度、深杜纂频度等,评估使用产生的价值,从而发现可沉用的高价值数资产据,并质疑不被使用的数据资产的存在意思 。



l 提高高价值资产的使用效能与沉用率


盘点数据资产,发现有价值的数据资产,形成数据资产目录,提高数据服务的质量、使用效能 。在盘点过程中可能发现分歧人员开发了类似或一样的数据资产,在没罕见据资产目录的情况下,沉复开发的景象是必然存在的 ?獯嬷械氖葑什,无论几多份沉复的数据,只能算统一资产,除了备份之表,其它都是有余的,不仅占用存储空间成本,还要支出治理守护成本 。数据资产目录能够提升资产沉用率,从而预防资产无序增长 。



l 数据资产目录,应该蕴含问题资产目录


盘点数据资产,主张不仅仅是为了得到一份可供使用的数据资产清单,还要为问题资产治理提供输入 。若是不是单一地为了输出资产目录,在界说数据资产与以及数据资产之间关系的过程中必然会发现很多问题,诸如各类数据质量问题、数据流转与散布不合理、信息孤岛、烟囱式利用、使用了不相宜的数据源(没有使用权威数据,削减负资产的使用与影响)、数据使用不合规等等 。


数据资产的“目录”概想,弱化了数据资产的内涵意思,包办不了数据架构的职能 。数据资产的寓意要比通常图书目录、商品目录丰硕得多,数据资产之间是有关系的,能够带来更多潜在的衍生价值 。



02 美满基础元数据


盘点数据资产必要靠得住的元数据对数据资产进行界说、归类,成立数据之间关系与血缘关系 。组织的运营取决于共享信息的能力,在大无数组织中,元数据治理方面的汗青欠账太多 。



l 不足元数据


启动盘点数据资产工作,面对的第一个问题是不够数据资产的元数据 。很多业务系统只能从出产库上导出没有业务逻辑的物理库表结构 。银行业务数据不是凭空产生的,应该吓仔数据的元数据后能力产生数据,不是吓仔鸡还是吓仔蛋的问题 。现实是一些业务系统设计时并没有思考到数据的使用,数据被当作业务系统的副产品,尤其是急剧迭代的互联网系统产生的各类大数据,通常没有把元数据作为最终产品交付件 。



l 元数据不成靠


即便在系统建设初期守护了部门元数据,也没有纳入配置治理中,投产之后更新不实时或再也没有更新,不能维持一致且最新,分歧文档之间内容不一致 。元数据颁布也不到位,时时遗漏下游用户,分歧人员的版本不一样 。数据仓库中的基础数据元数据也不齐全,衍生数据的元数据也很少守护,所谓的统一指标,不是成立在统一的基础之上的  ;炻业脑莶罹啵ㄊ萁峁埂⑻迨胶椭档氖褂貌罹啵┍鹊ヒ坏氖菝笥跋煅铣恋枚 。


数据性命周期前期阶段工作的不掌管任,没有交付靠得住的元数据,下游用户无法比力与关联数据,也就不能正确使用这些数据,更无法将数据作为资产进行治理,增长了数据使用成本与风险,迟延了数据项目执行周期,后期必要支出更大的补救价值 。


由于元数据治理不善,也因而衍生出大量不一致的元数据 。如一些银行数十万数据项,足以注明其数据与元数据治理的混乱 。


必要及早梳理、补充美满基础元数据,如最根基的数据库设计说明书、每项数据资产的业务寓意,关键数据元的界说与规定等等,无论价值多大,都无法回避这些工作  ;≡莸拿缆ǔSο抛谑葑什痰慊蜃魑葑什痰阆钪髡徘捌诠ぷ魇迪 。



03 优化数据架构


很无数据资产问题可能因数据架构的缺点导致的 。企业数据架构描述数据应该若何组织与治理数据,作为企业架构的一部门,是治理数据资产的蓝图 。数据架构的设计贯通于数据全性命周期,没罕见据架构也就没罕见据治理的基础,导致数据治理各类成本的大幅增长 。


很多组织没有设计数据架构,架构部门的职责领域不蕴含对数据架构的治理,可能仅限于治理技术架构或部门利用架构,架构设计与治理的能力弱,也不具备对供给商规划的把控治理能力,整个组织概想混乱,数据散布与数据流转混乱 。


只有少量组织成立了数据架构,重大的数据架构必要足量的高端架构师进行持续管控守护 。架构本应该持久相对不变的,某些组织却每五年甚至两到三年大幅度批改架构 。一些从业人员试图用业务领域来分类数据,把业务分类与数据分类混为一谈 。


某些组织意图对某些主数据进行集中治理,但没有配套的治理组织、人员、流程与措施,好比开发部署了ECIF系统,但仅能保障客户三身分或四身分是企业一致的,保障键的唯一,不合主数据性质属性治理,这些数据还是混乱的,产生不了客户单一视图 。


与从前数据模型仅存在于数据仓库的认知一样,不少数据专业人员对数据架构的认知仅限于数据仓库的分层 。固然对数据仓库的分层仍有分歧的理解,在数据仓库执行过程中,的确倒逼了企业数据架构与利用架构的建设、提升优化 。


随着业务与产品的创新,业务与技术试图突破已有的各类治理限度,使数据的治理日益混乱,成今天益增长 。组织必要具备优良治理的数据架构,尽快形成企业的数据分类,开发概想数据模型,从对根基概想达成一致的意识起头,领导盘点资产、数据的产生与使用、数据尺度等工作,及早实现数据资产治理的价值 。



04 优化利用架构


利用架构是对实现业务能力、支持业务发展的利用职能的结构化描述 。利用架构沉点回覆业务职能在哪里实现的问题,数据架构沉点回覆数据在哪里产生又在哪里使用的问题 。很多组织整体上短缺对业务、业务流程与信息数据的理解,没有很好规划利用架构 。


一些利用系统由汗青演变而来,可能包括原始所有的业务,设计扩大性差,已经不能适应不休变动的业务需要,没有一个大而全的利用系统能支持大型组织所有的业务 。应该从利用架构与技术架构上进行拆分 。


有些业务利用系统的职能过于单一,开发分歧的业务系统处置一样或类似的业务职能,除了导致概想不统一(如对私、幼我、零售三个名称分歧但内涵一样的概想,“幼我贷款借据表”中的业务主键的名称是“零售贷款借据编号”,给使用者造成业务主键与表别离表白了分歧业务的误会),每个系统必须具备齐全的业务操作与处置流程,无论设计开发,还是系统配置、运维人员配置,都造成资源浪费,导致昂贵的成本 D芄簧柘胍幌,当两个业务职能类似的系统整合为一个系统的时辰,会带来哪些收益 。


流程关系缜密的业务职能分散在多个利用系统中实现被拆分为多个系统,如贷款业务申请、客户评级、授信、担保、押品、合同放款、贷后、核销等所谓对公信贷全流程,业务职能别离在多个系统实现,从一个或2个集中的系统被过度拆分,数据集成与交互的复杂性指数级增长,同样的数据在多个系统中存放,必然导致数据的不一致性,同时产生了混乱的概想,如贷款申请流程中没有业务意思的技术主键,流转到授信、合同放款等系统中时,被转义为贷款申请编号,而用企业抽象通用的业务编号暗示真正的贷款申请编号,还产生了贷款借据、贷款支用、贷款账户等概想 。


利用架构影响数据架构与数据的集成 。不合理的、混乱的利用架构编织了复杂的蜘蛛网,不只造作了混乱的概想,还造成数据集成的难题甚至集成了谬误的数据,给业务治理与数据治理带来猜疑,增长数据治理成本与风险 。


必要从企业视角优化整合各条线、部门利用,解决职能过于分散、职能交叉沉叠与分工不清澈的问题 。优良的数据资产治理,离不开业务架构、利用架构、数据架构以及技术架构顶层设计来降低数据资产总占有成本,给业务提供高质量的数据 。架构方面一项幼的优化措施,可能带来大的价值提升 。



05 有效执行数据尺度


一些组织已经执行了十多年数据尺度,造订了蕴含数千或超万的数据尺度信息项,但是十多年从前,落地执行的尺度并不多,即便最根基的数据项也大多没有落地 。好比某行成立了币种、币种代码、币种编码、币种码、钱币种类代码、币种类型代码、币各种类编码、币各种类代码、钱币代码、币种代码值、币种信息等近千名称分歧、数据类型分歧的币种代码有关数据项 。


数据尺度自身界说不正确或不严谨,数据尺度的内涵理解存在比力大的差距,合标要求不明确或不严谨,或多或少都存在一些问题,流于大局与表象,没有抓住性质 。好比:


分类是治理数据很关键的一项工作,有些数据尺度,除了依照主题域分类表,没有进一步的分类,好比产品分类、和谈分类、事务分类,数据设计人员有了轻易阐扬的空间 。



l 有些尺度术语/数据项甚至没有界说,尺度守护人员在没有正确相识现存尺度的情况下不休新增尺度术语与数据项,导致不休膨胀 。



l 属性名称只落标中文名,固然成立了词根中英文名称对照,但是没有通过工具强造执行,造成物理名称与逻辑名称的不一致 。在物理建表时,即便提供了字段的中文注明,但Hive不支持将字段中文注解显示为查问了局的标题,这种情况下的落标没有起到作用 。



l 客户名称的技术属性尺度,如界说为VARCHAR(80),尺度的诠释为只有长度不超过80位即是合标的,但是若是某些业务系统的界说没有遵循尺度,在数据仓落标时时时被截断 。对于这些关键属性,严谨的尺度还应该限度最幼长度,以确保数据质量 。



l 没有治理代码类数据项的枚举值,或数据项的码值没有经过严谨设计,仅是单一的列举,如设计了性命周期状态数据项,用于各数据主题域有关实体的性命周期的状态,蕴含数千个码值,中文名称为“正常”的码值超过20多个,从而失去了使用价值 。


数据尺度应该是严谨的,尺度应少而精,易于理解把握,逐步推动工作 。把执行宽泛的大而全的数据尺度作为数据治理的切入点或启动项目不是一个有效的选择 。数据尺度所能表白的意思有限,数据尺度仅是衡量数据质量的参考凭据之一,并不能包办数据架构来治理数据 。



06 实时解决数据质量问题


任何组织的数据都可能存在质量问题,蕴含大量冗余与垃圾数据 。数据质量问题已经发现,应找到问题的底子原因及早解决,由于分析问题与解决问题都要支出成本,质量分析人员每天都必要分析质量问题,必要占用资源,成本随着迟延的功夫不休增长 。


尽量在上游解决数据质量问题,预防问题发散 。由于统一个问题从源头被传到数据湖与数据仓库,再进一步传导到各个下游利用,有关人员都必要沉复分析与解决问题,价值指数级增长,解决规划也可能分歧,最终用户看到的可能不一致 。


数据质量问题内涵复杂,涉及跨部门、跨专业合作,对于数据质量问题的鉴别与处置往往依赖于质量分析人员的能力与组织执行力,应把质量问题的产生、解决功夫与成本价值联系起来,成立数据质量问题认责与查核机造,预防扯皮推卸责任景象 。对于已经堆集多年的陈年旧债,要分析分类,从架构启程,解决底子问题 。


一些组织的治理和信息资产项目由合规性驱动,是被动型项目,而不是由数据作为资产所衍生的潜在价值驱动 。由于各类汗青原因,各企业的数据治理存在很大的提升空间,基于成本收益基准,从优化现有的数据及数据治理生态起头,不懈地关注架构、尺度、质量和流程等,打好数据价值基础 。


让中国金融科技 拥有世界影响力
人生就是搏科技更懂若何为您的数字化转型赋能
地址: 丽江市南山区沙河西路丽江湾科技生态园一区2栋A座5层
电话: 0755-8616 8118
传真: 0755-8616 8166
【网站地图】