《数据处理的一般原则与方法课件.ppt》由会员分享,可在线阅读,更多相关《数据处理的一般原则与方法课件.ppt(58页珍藏版)》请在三一办公上搜索。
1、1,数据处理的一般原则与方法,第29章,第二军医大学卫生统计学教研室 张罗漫,2,讲课内容:第一节 医学统计学概述(重点)第二节 原始数据的录入第三节 数据处理的几个基本问题第四节 统计方法选择的基本思路(重点),3,第一节医学统计学概述,4,5,6,7,实验设计,随机化,8,9,统计描述,10,统计描述,统计指标,计量资料(单变量),中心位置,计量资料(双变量),11,统计描述,12,统计描述,等级资料,统计指标,计数资料,单变量,双变量:rs,13,统计描述,参 考 值 范围估计,正态,偏态,14,统计推论,参数估计,15,统计推论,16,统计推论,17,第二节原始数据的录入,18,一、原
2、始数据的记录形式,行:观察单位 列:变量,19,标识变量,分析变量,20,标识变量,分析变量,解释变量,反应变量,21,二、原始数据的录入,文件类型:数据库文件:EpitaDa dBASE、FoxBASE、Foxprow Oracle Excel文件:Excel文本文件:Word统计软件数据文件:SPSS、SAS、STATA变量名的定义:变量值的量化:,22,第三节数据处理的几个基本问题,23,一、数据的净化 逻辑检查 计算检查二、离群数据的处理 离群值(outliner)与P25或P75的距离为“四分位数间距”的1.53.0倍。极端值(extreme value)与P25或P75的距离为“四
3、分位数间距”的3.0倍以上。剔除离群或极端值要予以合理解释。,24,三、统计方法前提条件的检验 多样本比较的方差分析:独立 正态分布 方差齐性 多重线性回归分析:变量间无多重共线 残差分布正态,25,第四节统计方法选择的基本思路,26,根据:医学专业知识医学统计学知识计算机统计软件技术,27,设计类型:完全随机、随机区组、拉丁方、交叉、析因、正交、嵌套、裂区设计处理因素:单因素、双因素、多因素反应变量:单变量、双变量、多变量资料类型:计量、无序分类、有序分类样本数目:单样本、两样本、多样本数据提供信息:完全数据、不完全数据、重复测量数据假设检验方法前提条件:独立、方差齐性、正态分布,重要,28
4、,一、单变量计量资料1.样本均数与总体均数比较 单因素 服从正态分布 单样本t检验 可信区间法 不服从正态分布 单个样本中位数与总体中位数比较,29,2.两个相关样本均数的比较 单因素 配对设计或自身前后对照设计 差值服从正态分布 成对t检验 可信区间法 差值不服从正态分布 Wilcoxon符号秩检验,一、单变量计量资料,1-可信区间不包括 d=0,P,30,3.两个独立样本的比较 单因素、完全随机设计 服从正态分布且方差齐性 两样本均数比较t检验 两样本均数的差数可信区间法 不服从正态分布或方差不齐性 两独立样本Wilcoxon秩和检验 反应变量为生存时间且含有截尾数据 log-rank检验
5、,一、单变量计量资料,31,4.多个样本均数的比较(1)一个处理因素 完全随机设计 服从正态分布、方差齐性 完全随机设计方差分析 两两比较:SNK-q、Dunnett-t检验 不服从正态分布或方差不齐性 多个独立样本比较 Kruskal-Wallis H 检验 两两比较:Nemenyi 检验,一、单变量计量资料,32,4.多个样本均数的比较(2)一个处理因素、一个控制因素 随机区组设计 服从正态分布、方差齐性 随机区组设计方差分析 两两比较:SNK-q、Dunnett-t检验 不服从正态分布或方差不齐性 多个相关样本比较 Friedman M 检验 两两比较:q 检验,一、单变量计量资料,当处
6、理因素为重复测量因素且不满足“球对称”假设,应用重复测量设计方差分析,33,4.多个样本均数的比较(3)一个处理因素、二个控制因素(行、列)拉丁方设计 服从正态分布、方差齐性 拉丁方设计方差分析 两两比较:SNK-q、Dunnett-t 检验,一、单变量计量资料,34,4.多个样本均数的比较(4)一个处理因素、二个控制因素(阶段、受试者)二阶段交叉设计 服从正态分布、方差齐性 前一阶段处理效应不持续作用到下一阶段 二阶段交叉设计方差分析,一、单变量计量资料,35,4.多个样本均数的比较(5)处理因素2、每个因素的水平数2 完全随机分组析因设计 服从正态分布 分析各因素主效应与交互作用 完全随机
7、分组析因设计方差分析,一、单变量计量资料,36,4.多个样本均数的比较(6)处理因素2、每个因素的水平数2 正交设计 服从正态分布 分析各因素主效应与主要因素一阶交互作用 正交设计直接分析、方差分析,一、单变量计量资料,37,4.多个样本均数的比较(7)处理因素2,每个因素的水平数2 处理因素中有一个为重复测量因素 不满足“球对称”假设 分析各因素主效应与交互作用 重复测量设计的方差分析,一、单变量计量资料,38,二、计数资料1.一个样本率与总体率比较 基于二项分布的直接概率法 正态近似法u检验,39,2.两样本率比较,二、计数资料,(1)两组完全随机设计N 40 且 T 5 Pearson
8、2 检验N 40 但 5 T 1 Pearson 2 检验(Yates 校正公式)N40 或 T 1 Fisher 确切概率法(2)配对设计 McNemar 2 检验,Logistic回归分析,40,41,3.RC列联表 相关、相差(1)双向有序备择假设:行变量与列变量为非零相关 Cochran-Mantel-Haenszel 2 检验有序分组资料的线性趋势检验 2 回归(2)单向(反应变量)有序备择假设:行平均得分不同 Cochran-Mantel-Haenszel 2 检验Wilcoxon 秩和检验,二、计数资料,42,3.RC列联表 相关、相差(3)双向无序备择假设:行变量与列变量有一般
9、关联 Cochran-Mantel-Haenszel 2 检验Pearson 2 检验,二、计数资料,43,1.配对设计 Wilcoxon符号秩检验2.两组独立样本 Wilcoxon两样本秩和检验3.完全随机设计多个样本比较 Kruskal-Wallis H 检验4.随机区组设计多个样本比较 Friedman M 检验,三、等级资料,44,1.相关分析 X1与X2服从二元正态分布 Pearson积差相关分析 X1与X2不服从二元正态分布 Spearman秩相关分析2.回归分析 Y与X服从二元正态分布 或 Y服从正态分布而X为控制变量 Y与X间呈直线趋势 直线回归分析,四、双变量资料,45,3.
10、曲线回归分析(SPSS),46,3.曲线回归分析(SPSS),47,4.协方差分析比较带有协变量(Xj)的各组均数()间的差别协变量Xj对Yj有影响分为完全随机设计与随机区组设计,48,1.有应变量的多元分析,五、多变量资料,49,1.有应变量的多元分析 Y为计量资料且服从正态分布 自变量服从多元正态分布 多元线性回归或多元逐步回归分析,五、多变量资料,50,1.有应变量的多元分析 Y为判别分类变量 自变量服从多元正态分布 判别分析或逐步判别分析,五、多变量资料,51,1.有应变量的多元分析 Y为二分类或多分类变量 以分析危险因素为主要目的 条件或非条件Logistic回归分析,五、多变量资料
11、,52,1.有应变量的多元分析 Y为生存时间且含有截尾数据 Cox比例风险回归分析,五、多变量资料,53,2.无应变量的多元分析,五、多变量资料,54,2.无应变量的多元分析 将n个观察单位聚为k类(n k)Q型聚类 将m个变量聚为k类(m k)R型聚类,五、多变量资料,55,2.无应变量的多元分析 将所有变量化为少数几个互不相关的综合 变量 主成分分析 从所有变量中找出有限个不可观测的潜在 因素 因子分析,五、多变量资料,56,2.无应变量的多元分析 分析一个变量与一组变量的相关关系 多元线性相关分析 分析一组变量与另一组变量的相关关系 典型相关分析,五、多变量资料,57,讲课内容:第一节 医学统计学概述(重点)第二节 原始数据的录入第三节 数据处理的几个基本问题第四节 统计方法选择的基本思路(重点),58,Thank you!,