《SPSS离群值与数学变换.ppt》由会员分享,可在线阅读,更多相关《SPSS离群值与数学变换.ppt(25页珍藏版)》请在三一办公上搜索。
1、实用生物统计分析(六),离群值、数学变换及其他,安徽大学生命科学学院,数据集合中与其他数据有明显偏离的取值数值上异常偏大或偏小,或根本不可能存在来源:-读数、录入的错误-真实存在的极端现象离群值对统计分析的影响造成参数估计的偏离(means,SD)造成对统计分布的错判影响对统计方法的选择和结果解释(方差齐性),离群值(outliers),依据常识和科学原理判断谬误直接剔除观察个体值偏离均值程度进行推断箱式图观察Z值观察统计检验方法Grubbs testDixons Q testHubers method,离群值的认定,箱式图推断离群值,分别以四分位数(Q3,Q1)为箱型方框的上、下边,以不超出
2、区间Q1-1.5*IQR,Q3+1.5*IQR的最大、最小观测值为线的上、下端,超出该区域的数据视为离群值。其中:IQR(interquartile range)=Q3-Q1SPSS中:Graphs Interactive boxplot注:SPSS还定义了所谓极端值,即超出区间Q1-3*IQR,Q3+3*IQR范围的数值。,箱式图推断离群值,数据集:2,57,60,60,65,68,70,71,72,74,74,76,77,98,150,220,箱式图推断离群值,离群值,离群(极端)值,离群(极端)值,离群(极端)值,Z值推断离群值,以Z值区间(-3.0,+3.0)为标准,超过者为可能的离群
3、值。这相当于以平均值为中心的99.9%置信区间。SPSS中:Analyze Descriptive statistics Descriptives,Z值推断离群值,勾选,将标准化变量Z值视为变量存入数据列表中,Z值推断离群值,可以看到,哪怕是220其Z值也只为2.969,未过此标准(3)。与箱式图相比,Z值法更为保守。原因与算术平均值的特点有关。,Grubbs test推断离群值,在线检验:http:/,220的Z值=2.972.59,为离群值(alpha=0.05)。,离群值的判定,Z值法最保守,原因是Z值本身就受极端值影响较大;上述方法都不是硬性规定,只为参考;对于离群值的判定要慎重,宁可
4、保守,不可贸然删除,对较小数据集(比如100)尤其如此;不能为追求显著性结论而人为主观地删除某些个离群值,这有违科学道德。,数学变换,参数性统计分析方法通常对数据的正态性、方差齐性、变量间的线性等有着明确或潜在的要求。若违背了这些前提,可能降低方法的可靠性,甚至导致其完全失效。当数据不满足这些条件,可以尝试通过数学变换加以改善,以达到顺利使用这些统计方法的目的。,数学变换,数学变换的使用存在争议,实践中也会给结果的解释带来困难。多数参数性方法是相当稳健的,即:对正态性、方差齐性的稍许偏离并不妨碍正常使用,可能因此损失的检验效力对常规分析仍可接受,尤其在样本量较大(n30)的情况下。除非特别必要
5、,慎用数学变换。,数学变换,存在下述情况可尝试数学变换:数据极度偏态分布:J型分布或严重左、右偏组间均值与标准差之间存在中度至高度的相关性必须使用多元统计方法,但正态性和线性不满足样本含量少(n30)且正态性、齐性不满足,数学变换,常见类型对数变换 平方根变换 反正弦变换倒数变换或上述变换的组合,适合极度偏态分布,组间呈数量级变化,适合中度偏态分布,有泊松分布特征,适合偏大或偏小的百分数资料,适合J型分布资料,数学变换举例,除草剂试验,响应变量为单位面积杂草数量,均值大,标准差也大,似乎存在相关关系,数学变换举例,均值与标准差相关系数达到0.825,散点图也看出相关趋势,数学变换举例,若直接对
6、原始数据进行annova分析,未通过方差齐性检验,说明各组间方差差异不能忽略。,数学变换举例,对杂草数量作频数分析,可见其分布明显右偏(偏斜度curtosis=3.2490)。考虑到单位面积杂草数最有可能服从泊松分布(=2),最适合平方根变换,数学变换举例,对响应变量取平方根,TransformCompute variable,数学变换举例,对响应变量取平方根,TransformCompute variable,转换后的相关系数0.693,有所改善,数学变换举例,做过平方根变换后,再作频数分析,可见其分布有了较大改善,更接近正态(偏斜度curtosis=-0.044)。,数学变换举例,转换后的方差齐性达到要求,可以进行单因素方差分析,样本含量的确定,理论上讲,样本含量当然越多越好;但究竟达到什么水平就足够好,这也是试验设计中关心的问题之一。在数学上要回答这个问题相当繁难,这里只对常见分析提出简略的计算方法:1)两均值的比较2)两百分数的比较3)方差分析,样本含量的确定,4)获得一个有意义的相关系数r5)多元回归:所有自变量(包括哑变量)个数106)因子分析:样本指标比至少达到5:1,最好能接近10:1,