《数据治理:数据质量提升整改.docx》由会员分享,可在线阅读,更多相关《数据治理:数据质量提升整改.docx(10页珍藏版)》请在三一办公上搜索。
1、1数据质量提升整改l=J满足监管要求的数据补足和数据质量提升难免涉及陕西信合业务系统 及各种接口的改进,以及相应的处理流程等的合理调整,为了同时满足监管 要求、时间要求和成本效益原则,IBM将为陕西信合不同类型的数据分别制 定不同的数据补足和数据质量提升的方案。1.1业务处理流程的合理调整IBM对各业务系统数据的差异性分析与数据质量分析时发现,将有部分 数据是由于陕西信合的业务流程不健全和不完善,而造成这部分数据的缺失 或不合格。虽然可以通过数据补录或其他方式,部分解决其差异问题。但从 陕西信合长期发展角度看,应该对业务流程进行合理调整,以提供可持续的 解决方案。根据差异数据的业务含义和来源,
2、制订相应的数据产生的业务方案,在 与相关业务部门充分沟通的基础上,设计其相应的处理流程,并确定引 入这些数据的合适的业务系统。在明确相应的处理流程的基础上,确定最适合引入这些数据项的业务系 统。在选择合适的系统时要考虑数据项的采集时间、与实际业务产生该 信息的滞后时差等因素。 对于重要的业务数据项(如本金余额、专项准备金、呆账损失额、违约 贷款的回收额等)需要将业务系统中数据的准确性保证、例外情况盘点 等关键责任落实到相关业务部门的主要负责人上并建立严格的绩效考核(发现问题的时间、问题根源的发现、及解决方案的及时性和合理性) 制度。特别的数据项还需要建立专门的岗位(如内部评级对应的违约概 率统
3、计和检验、抵押品效应及违约损失率检验和修正等)并辅以严格的 操作规程才能有效地持久地确保合格的数据内容和对应业务意义。在为缺失专用数据项而确定业务数据系统的改进或调整方案时,应综合 考虑对现有业务系统的影响,根据IBM的经验,对于其对已有信息及运 用的影响较易控制的数据,主要任务是选择数据产生和存储的时间和位 置;对于由多个信息来源综合定值的数据项常可有多种方案选择,除了 运用IBM以往的经验推荐较保守的方案外,还会根据银行相关人员的理 解和操作流程,制定可操作的解决方案。总之以简洁清晰的数据取值和准确无误的定义描述(数据字典)来规范 和设定具体业务数据项,清晰地分析并展现各业务系统数据处理全
4、过程中的 数据整合和管理,落实数据内容正确性和及时性的探测和改正的(业务)责 任方(或专职岗位)是做好业务系统数据补充实施方案设计工作的关键要素 和指导方针。1.2选择适当的业务系统或接口改 进建议数据弥补通常包括通过业务系统改进补足和数据仓库补录数据;数据质 量提升通常包括业务系统和数据仓库数据清理、业务系统和数据仓库改进、 业务流程改进等。为此,需要从数据差异、数据质量、IT系统、业务条线和数据特性五个 维度综合考虑数据质量提升方案,并与陕西信合相关部门密切配合,针对不 同数据分类实施不同的改进建议,目标既要满足监管要求,同时要符合时间 要求和成本效益原则。数据仓库、业务系统及接口改进与上
5、述五个维度的对应分析参见下图:敦摒差异姓度流母业务籍鲸E惭:城位#.扑吕. gg任次L I Lit程,将理帛足牡蛭定整匡 名车下I染市五,7F 呆中面.而话也tH H敦错质最螭I沂.某顷匚! ;了 m 1,兵*面,干 r -斗弃iinr旧贮曲1泌土枣拯顽*a殴,i齐逐,-#.气耳.尸目少再球f廿塔忒曜上 町注业金莘统.完芸风隘应用住不,采集监宜,末的螂忧宪级,,美联度其中数据特性维度,包括数据类型、数据优先级、数据关联度、时间维 度等。数据类型: 静态数据,指不参与业务逻辑处理(如审批)或数据逻辑处理(如汇总 计算)的数据 动态数据,指参与业务逻辑处理(如审批)或数据逻辑处理(如汇总计 算)的
6、数据数据优先级:如高、中、低优先级,或级别更细。数据关联度:如孤立的数据与高、中、低关联度数据,或级别更细。时间维度:新增数据与历史数据。针对数据差异的不同维度、数据质量的不同维度而引起的不同范围的源 系统改进,将通过以下内容进行描述。1.3业务系统改进建议业务系统改进会影响接口和数据平台改动,而且业务系统通常有实时和 7X24交易的需求,因此应将最少的数据项补足或清理归入此类,即便对于 归入此类的数据项,IBM仍将细分多种改进方案,在满足陕西信合监管要求 的前提下,按时间要求和成本效益原则选择最适合的方案。下面详细说明如 何通过分解业务系统数据补足和数据质量提升方案设计,最终提出业务系统 改
7、进建议。业务系统数据的弥补建议通常数据补足建议包括改进业务系统和直接在数据平台补录,其中业务 系统改进可以细分为以下方案:通过外部数据源的ETL过程,将数据补足到业务系统数据库;新增补录界面,在补录界面新增数据项;修改该数据项涉及的业务界面,在业务界面新增数据项;修改该数据项涉及的整个逻辑处理流程,在各处理环节新增数据项;新建业务系统,完善应用体系,采集监管要求的数据。以上各种对业务系统的改进方案的成本和难度是逐渐增加的,同时上述 各种改进需要建立配套的流程、岗位等,成本和难度也是逐级增加的。因此 数据补足与业务系统改进是目标与行动的关系,业务系统改进设计只有充分 考虑了数据补足需求和方案,才
8、能减轻业务系统改进压力和难度。业务系统数据质量提升方案设计数据质量弥补方案设计本质上是数据质量评估的后续执行阶段,数据质 量弥补方案设计方法分为四步:确定数据质量改进方向、定义数据弥补任务、 定义数据弥补任务的实施方案、执行数据弥补方案。确定数据质量改进方向根据数据质量原因分析所获得的数据质量原因,找出其对应的改进方向。 改进方向和原因分析相对应,也划分为业务标准/需求、流程、技术手段、人 员职责四大类。在项目执行过程中,将根据具体的数据质量原因确定数据质量改进方向 的类型及改进点和要求。数据质量改进方向的产出内容示例如下:数据问题类 型错误原因改进方向改进需求说明押物价值与实 际价值不符抵押
9、物价值没有复 核环节完善业务流程登记、维护抵押物流程中分别增 加复核子流程,验证系统中抵押 物与评估报告是否吻合保证类别代码 有超出值域列 表中的状态类 型柜员不按数据标准 维护数据定义规章制度业务参数要求按照业务操作手册 录入没有数据校验逻 辑;完善应用逻辑合同录入页面中的保证类别设计 为选择方式,屏蔽手工录入方式完善数据校验逻 辑应用程序增加代码检查到期日和到期 期限不一致q关联数据不能自动 转换或校验r1完善应用逻辑F1应用程序增加根据到期日检查到. 期期限的一致性。定义数据弥补任务:数据质量弥补任务主要集中在数据清洗补录、系统流程改进、强化数据 标准化、规范人员操作等。根据数据质量分析
10、任务中确定的改进方向,结合存在数据质量问题的具 体规则,定义数据弥补任务列表,定义每个数据弥补任务的目标和具体弥补 需求。数据弥补需求内容示例如下:编号CTQ01-0012源系统名称CLPM数据库表自然人数据字段客户编号(customer_num)问题类型完备性问题占比0.02%规则内容有效数据值为一个或多个空格问题描述3.8万笔抽样数据自然人客户编号笔为空格系统更新时间主要在8年.改进建议系统增加对客户编号的校验,客户编号不允许为空定义数据弥补任务实施方案根据IBM的实施经验,根据数据弥补任务目标的不同,弥补任务可划分 为数据源系统的改进和补录,数据质量保障体系的改进、数据质量持续改进 控制
11、管理三大条线。数据弥补任务实施方案中任务依赖关系内容示例如下:,、:,.1U惧伶仆,:丑昔i H.&、EIC*5; ,i:E” !-SS I号还岫妙Trfl-liK非强制抱旗各条线数据弥补任务的实施进度规划内容示例如下:历史数据的清理及补充方案设计历史数据的清理及补充是数据整改工作的一项重要而耗时的工作,需要 IBM与陕西信合密切配合,共同完成。下面列示了历史数据的清理及补充方 案设计应考虑的关键点:定义目标历史数据:根据数据差异性分析和数据质量分析报告定义需要 清理和补充的目标历史数据的范围和数据期间。定义关联历史数据:清理和补充目标历史数据所影响的下游关联历史数 据。制定清理及补充标准:即
12、制定目标和关联历史数据清理及补充要达到的 目标,也是将来的验收标准。划分清理及补充工作:如使用程序完成、程序和手工配合完成、只能手 工完成的数据处理;批量处理和单笔处理等。设计数据项的清理逻辑:包括源、清洗、转换、目标、影响等。工作量计划:评估各部分清理及补充工作量,制定时间和人力计划。启动实施会议计划:IBM与陕西信合负责数据清理和补充的相关部门讨 论上述方案,双方最终应达成一致意见,确定数据整改启动实施。培训计划:方案将包括对陕西信合进行数据整改作的人员的培训计划。定期评估计划:方案将包括定期获得历史数据整改情况反馈,进行有效 性评估的计划。1.4数据采集与补录建议在项目实施中,如果各源系
13、统不能提供,则需要陕西信合业务部门采取 手工方式收集相关数据,并建立数据补录平台,将采集到的补充业务数据加 载到数据平台。该项工作是项目实施中的一项重要工作任务,以下论述IBM 在本项目中的数据采集与补录实现方案。数据补录流程图数据采集与补录的一种可行方案是,数据采集使用Excel格式的数据采集模板执行。采集流程如上图,用户通过Web页面将Excel数据上传到Web服务器,校验模块读出数据,对其进行规范性、完整性检查,通过检查的数 据,交由加载模块加载到数据平台;不能通过校验的数据,通过Web页面返 回给用户,以便修改。从技术的角度看,数据采集的系统实现包括数据上传、 下载及校验报错的用户We
14、b应用,以及数据的批量补录、加载系统的实现。下面主要就模板设计、业务管理及数据补录的规范性校核三方面做以讨论。数据采集模板设计数据采集模板通过Web页面发布。用户可以通过Web页面下载。数据采 集模版设计的核心包括三方面:第一方面是数据采集模板对数据项的拆分和组合。这里的含义是:数据 采集模板的设计不是孤立定义的,它需要在了解银行原始业务数据分布 及业务数据管理惯例的基础上,保证数据采集时的效率及针对性,体现 银行的业务管理要求。如:如何按照业务部门管理条线(如对公信贷/个人住房贷款/信用卡/授信管 理/其它等)、或业务分支机构、或是按数据对象归属的完整的业务流程 分别进行分组拆分设计,以利用
15、模版的管理和高效使用;如果一个模版中的数据项过多,如何按照管理要求及业务特征的不同对 数据项进行分组。第二方面是采集数据对象的详尽定义,主要内容有:含有对每一个数据项含义的说明; 含有对每一个数据项类型的说明,例如Char、Date、Decimal等;含有对每一个数据项格式的说明,例如,日期字段必须是YYYY-MM-DD等;含有对每一个数据项值域的说明,例如,含有哪些值,或者在什么范围 内等;对于可供选择的值域,在用户输入时要求用下拉列表限制;第三方面是数据采集的控制信息及跟踪信息的定义。如:A 米集时间、米集人、米集机构、米集批次、重新报送标志等。数据采集的业务管理与报送制度数据采集的业务管
16、理与报送制度需要考虑:采集的业务部门及填报的岗位、采集的时间周期、出错处理流程。采集的业务部门,根据业务管理条线及应用系统分布定义数据采集的责 任部门;填报方式。如果填报的内容已经批量存在,无需逐条人工填制或拷贝,可以利用批量转换工具把已有的内容转换成要求的填报格式;填报的岗位及权限设置。只有经过授权以后该业务部门的该岗位填报的 数据才算有效并得到处理,否则视为无效的填报或者未经授权的填报;采集的时间周期。根据采集的数据更新性质和监控的时效要求进行相应 的设置:日、周、月、季等;出错处理流程。在每次填报结束,提交前需要填写相应的控制信息,比如:填报的机构、 日期、批次,在系统发现错误,或者填报人事后发现错误,可以根据这些信 息进行删除,并重新提交正确的填报。数据补录的规范性与完整性检查数据采集与补录流程中的校核模块须对数据做如下校验: 检查不允许为NULL的字段是否为NULL;检查数据格式是否符合指定格式,例如日期字段格式是否为YYYY-MM-DD 等;检查数据是否在指定值域范围内:如果是可供选择的值域,输入数据是否在可供选择的范围内;如果是固定范围的值域,输入数据是否在该范围内;检查数据的长度是否满足要求;检查有完整性约束的字段,是否满足完整性约束要求。