《统计学习基础.ppt》由会员分享,可在线阅读,更多相关《统计学习基础.ppt(17页珍藏版)》请在三一办公上搜索。
1、1,统计学习基础,2,概率 vs.统计,概率:研究随机事件出现的可能性的数学分支,描述非确定性(Uncertainty)的正式语言,是统计推断的基础概率:一个事件或事件集合出现的可能性基本问题:给定以一个数据产生过程,则输出的性质是什么统计推断:处理数据分析和概率理论的数学分支,与数据挖掘和机器学习是近亲统计量:一个用以描述样本或总体性质的数值,如均值或方差基本问题:给定输出数据,我们可以得到该数据的产生过程的哪些信息,3,概率 vs.统计,数据产生过程,观测到的数据,概率,统计推断,4,统计学习,统计学 根据数据进行推理的学科统计学习 多元统计分析+计算统计学多元统计分析 基于一个多元变量数
2、据集,预测函数值计算统计学 统计问题的计算方法(a.k.a.统计计算)+计算繁重的统计方法数据挖掘 研究数据分析,尤其是大数据量/复杂的数据集,5,例:人脸形状(随机事件、概率与统计学习),ICCV2001:Learning inhomogeneous Gibbs models of faces by minimax entropy,6,统计学习的基本问题,有监督/无监督学习有监督学习:回归、分类无监督学习:概率密度估计、聚类、降维增强学习模型选择模型评价:损失函数模型选择复杂性 vs.推广性,7,课程目的,为计算机专业的学生快速提供广泛的概率和统计背景概率统计统计学习为学习其他课程打好统计学
3、基础机器学习数据挖掘模式识别人工智能,8,数学基础的重要性,研究数据分析必须打好概率和统计基础Using fancy tools like neural nets,boosting and support vector machines without understanding basic statistics like doing brain surgery before knowing how to use a band-aid.,9,教材/参考书,Wasserman Larry Wasserman,All of Statistics:A Concise Course in Statis
4、tical Inference,Springer Press,2004主要教材:内容很全,但有些部分篇幅略少,更偏向于从统计的角度讲述Chp1-13,Chp20,Chp23-24HTF Trevor Hastie,Robert Tibshirani,Jerome Friedman著,范明,柴玉梅,昝红英译,统计学习基础数据挖掘、推理与预测,电子工业出版社,2004统计学习部分的主要教材:主要从机器学习的角度讲述Chp1-7CB George Casella and Roger L.Berger,Statistical Inference,机械工业出版社,2002详尽的统计推断教材:可以作为Wa
5、sserman一书的补充Chp1-10,10,预修课程,高等数学线性代数概率:有一定概率基础可复习任一本科概率论教材盛骤 谢式千 潘承毅,概率论,(浙江大学)编,高等教育出版社,11,课程内容(1),第一部分:概率基础知识概率理论随机变量及其概率分布常用的概率分布多元随机变量概率不等式和收敛性第二部分:统计基础知识统计基本知识非参数估计、Bootstrap、Jackknife参数估计假设检验,12,课程内容(2),第三部分:统计学习基本模型及理论统计学习概述线性回归概率密度估计核方法统计判决理论模型选择和模型评估第四部分:随机计算采样、MCMC(Monte Carlo Markov Chain
6、),13,相关会议、刊物,会议Internet Conference on Machine LearningKDD(Internet Conference on Knowledge Discovery and Data Mining)NIPS(Neural Information Processing Systems Conference)IJCNN(Internet Joint Conference on Neural Networks)Artificial Intelligence and Machine Learning ConferenceComputational Learning
7、Theory(COLT),刊物Machine Learning(ML)Journal of Machine Learning Research Annals of StatisticsData Mining and Knowledge DiscoveryIEEE-KDE IEEE-PAMI Artificial IntelligenceJournal of Artificial Intelligence ResearchComputational IntelligenceNeural ComputationIEEE-NN Research,Information and Computation,14,其他信息,助教:杨涛课件网址http:/,15,作业和考试,作业:40%非编程作业20%、编程作业(包括上机实验作业)20%每次作业留1-2周时间请按时交作业,鼓励讨论,但NO COPY考试:闭卷期末考试:60%,16,其他,课前预习课堂上预告下节课内容预习教材相应章节或相应的补充材料课后复习复习教材和课件,适当阅读课外材料下节课开始前,对上节课的内容都已经掌握讨论鼓励讨论:学得更快/更多、学习兴趣更高先独立解决问题,然后比较和讨论,最后提交的答案是自己的理解编写程序时,可以利用别人的代码,但需注明出处及自己的工作,17,作业,从日常生活、学习或工作中找出12个与统计相关的有趣问题,