数据挖掘学习汇报.ppt

上传人:小飞机 文档编号:6296666 上传时间:2023-10-14 格式:PPT 页数:32 大小:1.60MB
返回 下载 相关 举报
数据挖掘学习汇报.ppt_第1页
第1页 / 共32页
数据挖掘学习汇报.ppt_第2页
第2页 / 共32页
数据挖掘学习汇报.ppt_第3页
第3页 / 共32页
数据挖掘学习汇报.ppt_第4页
第4页 / 共32页
数据挖掘学习汇报.ppt_第5页
第5页 / 共32页
点击查看更多>>
资源描述

《数据挖掘学习汇报.ppt》由会员分享,可在线阅读,更多相关《数据挖掘学习汇报.ppt(32页珍藏版)》请在三一办公上搜索。

1、2016/11/15,秦华妮,五邑大学数学与计算科学学院,关于数据挖掘的学习汇报,1.1课程名称和主讲教师(北京大数据研究院暑期学校),一、暑期学习介绍,1.2专题:fundamental techniques in Big Data(李平),用数据的方法研究科学的最典型的例子:开普勒的关于行星运动的三大定律,二、数据科学,开普勒模式与牛顿模式,2.2 从数学的角度研究数据?,数 据,数据建模,整个数学模型,相关性、排序、分类、聚类,度量结构,网络结构,代数结构,拓扑结构,函数结构,表格、点集、时间序列、图像、视频、文本等,概率分布、随机过程、随机场、图模型等,算法及实现(数据分析的困难),降

2、低算法的复杂度,分布式计算,2.3 数据挖掘的综合技能,另外,随机过程、函数逼近论、图论、拓扑学、几何、变分法、群论的基础知识。数学系不需要一门一门的开设,而是可以开设一些新的“高等数学”课程来覆盖这些方面的内容,2.4 北大数据科学专业的探索,2.5 数据挖掘的10个重要算法,(1)K均值(K-means)方法(2)支持向量机(SVM)方法(3)期望最大化(EM)算法(4)网页排序算法(PageRank)(5)贝叶斯方法(6)K近邻方法(7)AdaBoost(8)决策树算法(9)关联规则Apriori算法(10)协同过滤方法(Collaborative Filtering),其他数据分析过程

3、中常用的方法还有:降维(主成分分析、线性判别分析)、随机森林、Bagging方法、序列标注模型(隐马模型、条件随机场)、EM和高斯混合模型,(2006年IEEE国际挖掘会议选出),2.6 数据挖掘的一般过程:,三、案例,案例1、智慧餐饮,案例2、中医辅助决策,案例3、商圈分析,餐饮企业的信息化管理(传统部分):(1)客户关系管理(2)前厅管理系统(3)后厨管理系统(4)财务管理系统(5)物资管理系统,餐饮企业的数据挖掘(创新部分):菜品智能推荐、客户价值分析、新店选点优化、热销/滞销菜品分析销量趋势预测,案例1、智慧餐饮,餐饮企业某一个月菜品的销售数据如下:,(1)销售数据的帕累托柱状图:,分

4、析可知:畅销菜:A1,A2,A3;滞销菜:A8,A9,A10;并且,A1A7占菜品份额的70%,但是总盈利占月盈利额的85.0033%,可以增加投入。,结果第一行解释为:客户同时点e与a的概率时30%,而点了e必点a的概率是100%.,餐饮企业某段时间的点餐清单:,(2)根据Apriori算法,可得如下规则:,消费行为特征数据如下:,(3)消费客户群的价值分析:,客户群体1的R、F、M的概率密度函数图:,客户群体1特点:R间隔相对较小,主要集中在030天;消费次数集中在1025次,消费金额在5002000元,客户群体2的R、F、M的概率密度函数图:,客户群体2特点:R间隔相对较小,主要集中在0

5、30天;消费次数集中在012次,消费金额在01800元,客户群体3的R、F、M的概率密度函数图:,客户群体3特点:R间隔相对较大,主要集中在3080天;消费次数集中在015次,消费金额在02000元,客户价值分析如下:,智慧营销策略:,客户群体1:资源优先保持,差异化管理,提高这类客户的忠诚度与满意度,尽可能延长这类客户的高水平消费;,客户群体2:加强促销手段,加强满意度,提高他们转向竞争对手的转移成本,逐渐使其成为忠诚客户;,客户群体3:采取一定的营销手段,重点联系,争取延长客户的生命周期。,客户群体1:高消费、高价值人群;客户群体2:一般客户人群;客户群体3:价值较低的客户群体。,采用TS

6、NE数据降维将数据进行可视化,其中红色代表客户群体1,绿色代表客户群体2,蓝色代表客户群体3,案例2、中医辅助决策,证型系数=各证型得分/各证型总分,模型构建:,1.中医证型关联规则模型,(1)设置参数:最小支持度、最小置信度,读入数据(2)以关联规则算法对建模数据进行分析,调参,运行结果:,2.模型分析,结果分析:(1)说明肝气郁结证型系数处于(0.258,0.35,肝肾阴虚证型系数处于(0.353,0.607范围内,TMT诊断为H4的可能性为87.96%,这种情况发生的可能性为7.85%,(2)C3、F4=H4支持度为7.53%,置信度为87.5%,分析类似(3)B2、F4=H4支持度为6.24%,置信度为79.45%,分析类似,案例3、基于移动通信基站定位数据的商圈分析,基站小区为六边形,历史定位数据整理得到样本数据:,谱系聚类图:,可将数据分成3类,即三个商圈,商圈类别1分析:工作日人均停留的时间、凌晨人均停留时间很短,周末人均停留时间短,同时日均人流量大,说明此类别基站覆盖区域是商业区。,各个商圈的层次聚类图:,商圈类别2分析:可推断此类别基站覆盖区域是住宅区,商圈类别3分析:可推断此类别基站覆盖区域是上班族聚集的工作区,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号