《数据挖掘的原理与方法ppt课件.pptx》由会员分享,可在线阅读,更多相关《数据挖掘的原理与方法ppt课件.pptx(28页珍藏版)》请在三一办公上搜索。
数据挖掘的原理与方法,袁博,把具有某种共同属性或特征的数据并在一起,通过其类别的属性或特征来对数据进行区别。,交叉验证用于评估模型的预测性能,混淆矩阵(误差矩阵),真实值是positive,模型认为是positive的数量(TruePositive=TP)真实值是positive,模型认为是negative的数量(FalseNegative=FN):这就是统计学上的第一类错误(TypeIError)真实值是negative,模型认为是positive的数量(FalsePositive=FP):这就是统计学上的第二类错误(TypeIIError)真实值是negative,模型认为是negative的数量(TrueNegative=TN),ROC曲线理想情况下,TP应该接近1,FP应该接近0。比如Threshold最大时TP=FP=0,对应于原点;Threshold最小时,TN=FN=0,对应于右上角的点(1,1),分类按照某种标准给对象贴标签,再根据标签来区分归类,聚类事先没有“标签”,而通过某种成团分析找出事物之间存在聚集性原因的过程。,关联规则,线性回归,Garbage input garbage output,输入垃圾输出垃圾,随机问卷题目,数据+算法+计算平台,宏观做数据挖掘怎么做?,看待问题一定要全面,一定要从不同的层次,不同的角度综合来考虑。,谢谢观看!,