《金融大数据实践研究.ppt》由会员分享,可在线阅读,更多相关《金融大数据实践研究.ppt(41页珍藏版)》请在三一办公上搜索。
1、金融大数据实践研究,连接降维,新一代金融服务:需要?,一把手工程数据科学家,风险管理,贷款服务,商业票据系统,投资理财系统,中间业务,三方存托管,账户管理,卡业务,各类生活应用(出行 购物 医疗服务),积分管理 流量管理,打造互联网金融,银行,证券,保险,银之杰生态圈,公司介绍,大数据与互联网金融,风险定价,精准营销,互联网资产交易平台,互联网财富管理,互联网保险,征信,超级支付,大数据,互联网金融业务板块,互联网金融基础设施,金融行业大数据建设方法论,大数据平台的建设。首先应该规整、规范、统一和梳理行内已有数据。对已有的客户综合视图,产品视图和账户视图进行完整和统一的梳理;能够完全兼容并提高
2、现有查询等。这是基础。,获取、丰富数据;整合外部数据;打通外部数据;完成多层次、多维度的360度客户视图的完善和补充,其中技术实现如模型和算法的提升、自动化和具备前瞻性。,针对具体的、明确的新业务和新产品进行快速落地和创新实现。用互联网模式进行快速迭代,孵化出全新的业务应用。,大数据就在你我身边,大数据在国际银行业的主要应用,大数据在国内银行业的主要应用,个人画像;企业画像,批量获客跨界融合整合资源与产业升级,反欺诈应用(申请欺诈;交易欺诈)小微企业贷款评估P2P平台,快速(极速)放贷产品组合优化舆情分析服务升级(个性化、多样化服务),精准预测个性化推荐联合营销,从上一周的声量表现来看,南京银
3、行声量略高于江苏银行。从声量平台分布来看,南京银行在新闻、论坛和博客上产生的声量远高于江苏银行。,舆情声量概览,一周总声量,备注:数据周期为2015年7月20日-7月26日,南京银行总声量为2,733,江苏银行总声量为1,608。,声量平台分布,热词云图,在新闻平台上,南京银行经常与平安银行、宁波银行和交通银行等共同提及,江苏银行提及量较为靠后。股票和理财产品是最为热门的两个讨论话题。,备注:数据周期为2015年7月20日-7月26日,南京银行总声量为2,733,江苏银行总声量为1,608。,热词云图,江苏银行与招商银行、平安银行、民生银行等共同提及率较高。其房贷首付六折政策在新闻平台上传播较
4、广。消费者对信用卡和理财产品最为关注。,江苏银行热词云图,备注:数据周期为2015年7月20日-7月26日,南京银行总声量为2,733,江苏银行总声量为1,608。,情感表现,由于声量来源以新闻为主,因此带有情感倾向的消费者讨论声量非常小。其中,南京银行的口碑优于负面口碑。南京银行由于股票未跌停以及没有手续费收到好评,然后消费者也对其报表持不信任态度。江苏银行的正面声量主要来源于对其银行的崇拜和公益活动的称赞,负面声量较为含糊,未明确为指出原因。,备注:数据周期为2015年7月20日-7月26日,南京银行总声量为2,733,江苏银行总声量为1,608。,声量情感表现,负面声量举例不良率和业绩增
5、速指标整体都不容乐观。此外南京银行的报表会美到我不敢相信。,正面声量举例而我买的 南京银行 是银行里唯一涨得还是很欣慰的。.银行板块也普遍下跌,仅 南京银行 一只股票在涨。.只有少数银行没有手续费,目前好像有 南京银行.,例举,负面声量举例江苏银行 是不是倒闭了啊,没有听到动静跑了好几站路,发现一家 江苏银行,结果不能办现在坐车去浦发银行看看.,正面声量举例今天很幸运见到了江苏银行的夏董事长,估计这辈子也就只能这一次了,其他的行长都没什么特别的,他一出场就有一股浩然正气的感觉为让这些马路天使能在这么酷热的天气中有个喝口水、歇歇脚的地方,锦帆路社区联系 江苏银行 沧浪支行在行里为环卫工人们设立了
6、一处“清凉驿站”,给他们一个夏日小憩、清凉饮水之处。.,传统客户视图,数据+模型=用户画像立体 多维度 深层次 细颗粒度 对应的不同的业务和多样的应用场景快速识别白名单和黑名单;提高自动核准率,从而提升效率精准营销;征信评级;反欺诈;动态调整级别和监控(增收和降低坏账率)、快速放贷运营提升 和 服务提升。这里需要刻画用户,不同特征,不同地区往往涉及到基本自然属性、兴趣爱好、购物行为和爱好。用户画像vs 打标签(标签的组合,标签 派生特征,标签关联关系),大数据客户画像,银行的数据+外部数据,1.银行在使用的数据“银行内部可用信息的使用率仅仅是1/3,仍然有大片数据荒地,价值有待挖掘”信用卡交易
7、记录用户交易往来记录用户贷款还款数据-客户基本信息-基本评分数据,2.尚未有效 使用的数据 银行网站互动信息和使用行为信息 社交媒体公众号信息 呼叫中心录音数据 移动银行用户定位和行为数据 监控视频,3.多样多维丰富的外部数据-如运营商数据、主流电商网站数据;上网痕迹数据;-旅行航空数据等;-企业用户行业数据;-企业用户经营相关数据;-企业用户纳税和工商数据;-房租水电数据-用户的三表数据,明略大数据画像样例,大数据客户画像实战模型-,大数据客户画像实战模型-,优质客户特征分析-模型流程,个人信贷数据,数据清洗,特征处理,特征降维,基于经验规则标注,K-近邻算法补充,信贷经理标注,优质/不良客
8、户识别模型,新客户,识别结果,存量客户精耕细作 优质分析,#1、基于经验规则标注种子,#2、K-近邻算法补充,#3、信贷经理标注验证,#4、最终结果,存量客户分析的一些基本算法,优质客户&不良客户特征分析,共发现客户92万多个特征其中有效区分优质不良客户的特征9000多个,存量客户分析的算法和模型优化,优质客户&不良客户统计,存量客户分析结果样例,优质客户&不良客户特征分析,存量客户分析结果样例,优质客户&不良客户特征分析,存量客户分析结果样例,存量客户分析结果样例,数据+平台+应用“三位一体”方法论,26,第一阶段:存量客户统一视图实施路线,存量客户梳理统一视图结果图,银行已有数据资产:客户
9、关系CRM系统,ECIF系统中的数据.外部数据=不同特征、不同维度的数据使用场景(应景弹性变化的数据);客户准入:直接验证(手机#姓名 证件#)规则:过去的信贷历史(增值服务平台如短信)风险级别:不同程度的审核审查;客户风险的综合评价、各种模型 进行定价;精准获客(广告的精准投放)贷款人预筛选、预审批(如白名单);逾期管理:催收的策略和催收的手段(催缴公司黑名单);,第二阶段:引入外部数据,第三阶段:建设大数据平台路线演进图,数据量巨大,低成本实现了传统关系型数据库无法处理的复杂数据分析基于数据挖掘(DataInsight)和可视化产品,持卡人的自动化画像和消费预测等业务应用业务上完成商圈聚合
10、分析,20种持卡人的自动化画像,持卡人的100+多维分析和关联挖掘分析,竞争交叉分析;持卡人消费预测的精准度使得银联和主要商户一起进行精准营销和个性化推荐,银联商务海量交易流水的客户行为分析和预测,商圈竞争形势分析,椭圆状:商店与商圈内同行业其它商店的比对。椭圆形状越宽,表示商店的笔数越高,椭圆形状越长,表示商店的金额越高。,2014年X月分店选择,银联商务商圈聚合和竞品分析,产品品类组合自动分析1、关联度:用户同时购买2种产品的关联指数。关联度越高,同时购买的可能性越大。2、产品组合利润率指用户同时购买组合产品时商户所获得的利润率。以两种产品等重为前提。3、标星的产品组合是银联商务向商户推荐
11、的产品促销组合。,银联商务用户购物篮分析,每促销一单位的产品Z(默认金额最高的产品,此处可对其它品类进行选择)对其它产品的影响,对刷卡笔数笔数的影响,对刷卡金额金额的影响,对刷卡收入的影响,对刷卡收益的影响,2014年X月分店选择,银联商务品类促销分析,ZestFinance(原名ZestCash)新兴的互联网金融公司 使用机器学习的方式评估个人贷款的信贷风险指数。研发主要团队有数据科学家、数学家和计算机科学家组成。,ZestFinance利用机器学习和大数据分析,提供全新的客户信贷征信服务。前谷歌首席信息官Douglas Merrill和Capital One 公司前高管Shawn Budd
12、e创建。分析上万个(达70000个)潜在信用变量从财务信息到可以使用的一切数据以更好地获取诸如潜在欺诈、长期客户关系等元素。大数据分析模式高于现在行业最佳水平40%。更精确的信贷决策,使得借款人有更高的信用额度,而贷款机构有更高的还款率。前期业务提供放贷,后来越来越多信用评估业务。,大数据分析使得贷款机构得以批量增加客户群,从竞争对手中得到更多的生意,同时更好地服务现有客户,而充分控制好违约率。,从本质上讲,这是一家数据科学家企业,它精通数据计算、关联分析和深度机器学习。到2015年5月梅里尔麾下的百人团队中,大部分是数据科学家,他们全新开发了10+个基于学习机器的分析模型,对每位信贷申请人的
13、超过几万条原始信息数据进行分析,并得出万个可对其行为做出测量的指标:这一切5秒钟完成。,结果,ZestFinance称这种方式比传统的衡量模型提升了60的效率,更重要的是,还款率也比传统的方法高出了90。该公司旨在为那些个人信用不良或者不满足传统银行贷款资格的个人提供服务。目前业务已经发展到提供信用评估。,美国互联网金融公司ZestFinance,针对非专业人员的专业大数据挖掘工具基于Spark技术构建的并行大数据挖掘平台与企事业数据和应用无缝对接,减少模型再次部署和开发的成本,支持用户基于指定的数据集合通过直观的界面操作创建、管理和执行数据挖掘模型;内置了高效的转换器和分析器,来帮助用户实现
14、自己对于数据分析的想法,并且还提供了有效的模型参数调整和反馈机制,支持用户随时优化。,38,三大算法模型,聚类算法,K-MeansK-CenterK-Medoid,推荐算法,User-based Collaborative FilterItem-based Collaborative Filter,分类算法,SVMLogistic RegressionNative Bayes,频繁模式&关联规则,FP-growthBIDEApriori,自然语言处理,CRFLDA/AD-LDAHD-HDP,五大算法库,明略DataInsight,积分金融结合旅游保险产品、旅游医疗产品=进而进入家庭医疗保险;客
15、户赠礼送WIFI流量“来抢”;丰富的大数据使得及时贷/分钟贷已经可能,网银:即时1对1视频服务数字钱包:融合金融、支付、零售商、电信、移动设备等各产业的解决方案。O2O数字钱包:旺POS,以互联网思维提升客户粘性和活跃度:把直销银行/互联网银行/手机银行做活客户结构,2/8客户大数据分析海量客户数据,实时掌握和实时触达,金融服务和医、食、住、行、玩的某方面结合;提供全新的金融产品(保险、理财、证券)以极致简单呈现;金融服务+非金融服务集成于一体社交场景+生活场景交互,物理网点互联网、移动端和社交媒体 一致客户体验,客户全渠道 现场服务+远程服务;线上服务+线下服务,大数据下的下一代智慧银行,1,2,3,4,5,明略金融行业大数据平台应用架构,任何问题:欢迎随时沟通周卫天m,