数据分析与软件应用.ppt

上传人:小飞机 文档编号:6578351 上传时间:2023-11-14 格式:PPT 页数:21 大小:345.14KB
返回 下载 相关 举报
数据分析与软件应用.ppt_第1页
第1页 / 共21页
数据分析与软件应用.ppt_第2页
第2页 / 共21页
数据分析与软件应用.ppt_第3页
第3页 / 共21页
数据分析与软件应用.ppt_第4页
第4页 / 共21页
数据分析与软件应用.ppt_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《数据分析与软件应用.ppt》由会员分享,可在线阅读,更多相关《数据分析与软件应用.ppt(21页珍藏版)》请在三一办公上搜索。

1、数据分析与软件应用,主讲教师:王明芳电话:QQ:834055974,2,2023/11/14,2,一、为什么要学习这门课?,个人:这一个月的钱都花到哪里去了?(谁动了我的钱?)集体:一个公司的利润是从哪里得来的?某支股票的波动受到了哪些影响?国家:2014年青奥会能带给我们什么?京沪高铁;7.23事件 大学生数学建模的例子:艾滋病疗法的评价及疗效的预测,3,同时服用3种药物的300多名病人每隔几周测试的CD4和HIV的浓度。,艾滋病疗法的评价及疗效的预测:第1列是病人编号,第2列是测试CD4的时刻(周),第3列是测得的CD4(乘以0.2个/ml),第4列是测试HIV的时刻(周),第5列是测得的

2、HIV(单位不详)。病人编号 CD4时期 CD4数值 RNADate VLoad 23424 0 178 0 5.5 23424 4 228 4 3.9 23424 8 126 8 4.7 23424 25 171 25 4 23424 40 99 40 5 23425 0 14 0 5.3 23425 4 62 4 2.4 23425 9 110 9 3.7 23425 23 122 23 2.6,4,2023/11/14,4,二、课程概述,Who?,When?,How?,What?,Why?,数据分析与软件应用,Where?,5,2023/11/14,5,课程主要内容,第一讲 概论 第二讲

3、 spss数据文件的建立、管理及预处理第三讲 spss数据的基本统计分析第四讲 假设检验第五讲 多元统计概述第六讲 聚类分析 第七讲 判别分析第八讲 主成分分析第九讲 因子分析第十讲 典型相关分析,6,参考书籍,书籍:实用多元统计方法应用多元统计分析 朱建平 科学出版社 应用统计 葛新泉 社会科学出版社基于spss的数据分析 薛薇 中国人大若干论文相关软件ExcelSpss,7,参考网站,http:/中国经济统计(统计资源)中国精算网http:/统计精英网(杭州商学院,经济统计)http:/研究人员之家实验设计&数据分析数据处理&实验设计(包括ppt教案、软件等)http:/数据挖掘讨论组ht

4、tp:/数海淘金,8,2023/11/14,8,教学目的及要求,教学目的:通过本课程的学习,学会应用数据分析的相应方法对数据进行合理的分析,通过和不同的学科知识相结合,对所考虑具体问题给出合理的推断。考核平时实验,作业,一次报告,期末考试。根据具体工作安排,按时完成布置的案例作业,如果可能的话在课堂上讲述出来和大家一起讨论。报告:针对数据分析的方法和应用写一篇报告,必须有自己的体会和看法,用打印稿的形式上交。,9,教学目的及要求,本课程将尽量围绕一个案例贯穿始终,所有分析方法都利用这个案例的数据进行分析,从而给出一个相对比较完整的数据分析的案例。当然这个工作是由学生自己做出来的!经过每一步的分

5、析和讨论,应该能更好的掌握这门课的精髓。,2023/11/14,9,10,三、本学期的案例,某群体网络购买能力的分析目标:通过对相应群体网上购物数据的调研和分析,达到了解学生购买习惯、偏好等规律。,2023/11/14,10,11,四 获取数据的初步知识,第一 数据、信息和知识的差别第二 数据挖掘系统的总体结构第三 数据从哪里来第四 数据清理第五 分工,12,第一 数据、信息和知识的差别,数据丰富与知识匮乏:数据挖掘,1,2,13,第二 数据挖掘系统总体结构,14,第三 数据从哪里来,手段:网络、统计年鉴、实验、问卷调查获取数据的原则:及时、准确、全面、适用、经济获取数据的步骤:1.分析问题

6、2.确定属性变量 3.数据的缺失处理 4.数据属性变量的初步筛选案例步骤:,2023/11/14,14,15,第四 数据清理(data cleaning),噪声数据:数据中存在着错误、或异常(偏离期望值)的数据不完整数据:感兴趣的属性没有值不一致数据:数据内涵出现不一致情况(如:作为关键字的同一部门编码出现不同值)。清洗、集成、转换、消减,2023/11/14,15,16,数据清洗:消除数据中所存在的噪声以及纠正其不一致的错误,16,2023/11/14,遗漏数据处理:忽略该条记录手工填补遗漏值利用缺省值填补遗漏值利用均值填补遗漏值利用同类别均值填补遗漏值利用最可能的值填补遗漏值,噪声数据处理

7、(平滑或发现异常数据)Bin方法聚类方法人机结合检查方法回归方法不一致数据:利用与外部的关联手工加以处理,17,数据集成(data integration),将来自多个数据源的数据合并到一起构成一个完整的数据集模式集成(匹配性)冗余问题(相关性分析)数据值冲突检测与消除,18,数据转换(data transformation),将一种格式的数据转换为另一种格式的数据平滑处理,消除噪声合计处理数据泛化处理:利用更高层次的概念取代低层次:如街道 城市或国家规格化:将有关属性数据按比例投射到特定范围中最大最小规格化方法零均值规格化方法十基数变换规格化方法属性构造:根据已有属性构建新属性,19,数据消减(data reduction),通过删除冗余特征或聚类消除多余数据数据立方合计维数消减数据压缩离散化与概念层次生成,20,第五 分工,数据的整理和清扫数据的初步统计(均值,方差,相关系数)假设检验(不同类别的数值是否具有一致性),2023/11/14,20,21,思考题,数据、信息和知识的差别是什么?数据清理包含的内容及如何清理?,Thank You!,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号