数据模型公式.docx

上传人:小飞机 文档编号:3560143 上传时间:2023-03-13 格式:DOCX 页数:27 大小:43.57KB
返回 下载 相关 举报
数据模型公式.docx_第1页
第1页 / 共27页
数据模型公式.docx_第2页
第2页 / 共27页
数据模型公式.docx_第3页
第3页 / 共27页
数据模型公式.docx_第4页
第4页 / 共27页
数据模型公式.docx_第5页
第5页 / 共27页
亲,该文档总共27页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

《数据模型公式.docx》由会员分享,可在线阅读,更多相关《数据模型公式.docx(27页珍藏版)》请在三一办公上搜索。

1、数据模型公式第三章: 总体方差:s=22(x-m)iN2(x-x)i; 样本方差:s=2n-1zi=xi-x s(X-X)(Y-Y)iin样本协方差Sxy = i=1n-1)总体协方差sxy=(x-m)(y-mixiyNSxy SxSy皮尔逊积矩相关系数:rxy= 第五章:离散型概率分布 数学期望E(x)=m=方差Var(x)=sf(x)为概率 二项概率函数: 2xf(x), =(x-m)f(x) 2nx(n-x)p(1-p)f(x)= x5.5 泊松概率分布 mxe-mf(x)=x!,在一个时间区间内事件发生x次的概率,为数学期望 第六章:连续型概率分布 6.1均匀概率密度函数 f(x)=

2、0 其他 1 axb b-a(b-a)2a+bE(x)=, Var(x)= 122连续型概率分布 63二项概率的正态近似 均值=np,标准差s=6.4 指数概率分布 np(1-p),当取概率pp(x)时,x-0.5。 f(x)=1me-x/m,表示两起事件之间的时间间隔 -x0/m累积概率:不超过X0分钟 P(xx0) =1ex-ms=z 第八章:总体均值区间估计 8.1 总体标准差已知,求总体均值的置信区间估计 95%置信水平(confidence level),0.95置信系数,置信区间(confidence interval) sx=sn,边际误差=za/2sx=za/2snn,=1-0

3、.95=0.05,/2=0.025 总体均值的区间估计=x+za/2s8.2 总体标准差未知,求总体均值的置信区间估计(t分布) 用样本标准差s代替总体标准差,t代替z st=x+a/2t=x-m0s/nn,自由度df=n-1 8.3 样本容量的确定 (za/2)2s2n=,E为所希望的总体均值的边际误差 2E8.4 总体比率:只有z,没有t sp=p(1-p),边际误差=za/2sp=za/2nnp(1-p)=E np(1-p)z总体均值的区间估计=p+a/2 n= (za/2)2 p*(1p*)/E2 第九章:假设检验(一个) 总体均值假设检验 H0:=0; Ha:0 ,0为假定值 p-v

4、alue,即zza(上侧)或zza(下侧),则拒绝 p(z1.96)=0.025 9.3总体标准差已知,求z x-m0z=, x为样本均值 s/n置信区间法:x+za/2sn,看0是否落在该区间内 9.4总体标准差未知,求t t=x-m0,df=n-1 s/n9.5 总体比率假设检验,求z H0:p=p0; Ha:pp0 ,p0为假定值 z=p-p000p(1-p)/n9.7计算第二类错误的概率 (1)在显著性水平下,根据临界值法确定临界值za/2并建立拒绝法则(如,如果zza/2,则拒绝); x-m0(2)根据za/2,解出样本均值x 取值范围(根据z=或za/2); s/n(3)建立接受域

5、,如xa; (4)根据接受域(不变)与满足备择假设的新,计算概率(z=x-m)。 s/n第二类错误概率,做出拒绝H0的正确结论的概率称为功效,值为1- 越接近原假设均值,发生第二类错误的风险越大。 9.8 确定总体均值假设检验的样本容量 n=(za+zb)2s2(m0-ma)2为第一类错误概率,为第二类错误概率,0为原假设总体均值,a为第二类错误所用总体均值。 双侧检验中,以Z /2代替Z 第十章:两总体均值和比例的推断(两个) 10.1两总体均值之差(1-2)的推断,总体方差1和2已知 标准差sx-x= 12s12n1+s22n2,Margin of error=za/2s12n1+s22n

6、21-2的区间估计:x1-x21-2的假设检验: za/2s12n1+s22n2H0:1-2=D0; Ha:1-2D0,双侧,求z:z=(x1-x2)-D0s21n110.2两总体均值之差(1-2)的推断,总体方差1和2未知 1-2的置信区间估计:x1-x2ta/2+s22n2s12s22, +n1n2s12s222(+)n1n2df=,自由度取小的整数 221s121s22+n1-1n1n2-1n21-2的假设检验,求t: t= (x1-x2)-D0ss2+n1n221210.3匹配样本 H0:d=0, Ha:d0,双侧 t= d-mdsd/n,df=n-1,d为两组数值之差的平均值,d为总

7、体数值之差的平均值(一般为0),Sd为两组样本数值之差的标准差 置信区间=dt0.025sdn10.4 两总体比例之差的推断 H0:p1-p2=0; Ha:p1-p2D0 n1p1+n2p2, z=p=n1+n2p1-p211p(1-p)(+)n1n2p1-p2za/2p1(1-p1)p2(1-p2)+ n1n2两总体比例之差的置信区间=第十一章:关于总体方差2的统计推断 111一个总体方差的区间估计:(n-1)s2c2s2(n-1)s2a/2c2(1-a/2)假设检验:H0:s=s0;Ha:ss0,双侧检验 2222c2=(n-1)s2s02,df=n-1,做备择假设使取上侧 2222112

8、两个总体方差的统计推断:H0:s1=s2;Ha:s1s2,双侧检验 s21F=2,s1是较大的样本方差 s2 numerator degrees of freedom= n-1,denominator degrees of freedom=n-1 c2取值都取右侧,如 值越小,ca越大 第十二章:拟合优度检验和独立性检验 12.1 拟合优度检验:多项总体(总体是否服从k类中每类都有指定的概率) H0: pA= .30, pB = .50, and pC= .20,单侧检验 Ha:The population proportions are not pA= .30, pB= .50, and p

9、C= .20 2(f-e)c2=ii eii=1k212.2 独立性检验(两个因素是否相关),单侧检验 H0: Beer preference is independent of the gender of the beer drinker Ha:Beer preference is not independent of the gender of the beer drinker c2=ij(fij-eij)2eij第十三章:实验设计与方差分析 13.2方差分析和完全随机化实验设计 一个对应一个处理j列,多个比较是否相等,1=2=3) 处理间估计 处理平方和SSTR=处理内估计 n(Xjj=

10、1kkj-X)2 ,处理均方MSTR=SSTR K-1误差平方和SSE=(nj-1)sj2,误差均方MSE=j=1SSE nT-kk为处理数,n为每个处理中样本的个数,nT为总个数 F=MSTR,上侧检验; MSESST=SSTR+SSE MSE=s2,s=MSE =x+ta/2 s n13.3 多重比较方法 Fisher 的LSD方法(两个进行比较) H0:i=j ; Ha:ij t=xi-xj,df=nT-k,双侧 11MSE(+)ninj第二种方法: H0:i=j ; Ha:ij 如果Xi-XjLSD,则拒绝H0 11 +)ninjLSD=ta/2MSE(1-2的置信区间估计=xi-xj

11、LSD 13.4 随机化区组设计 13.4.2 ANOVA方法 A:处理;B:区组;E:误差 SST=SSTR+SSBL+SSE, SSE= SST- SSTR-SSBL SST=i=1b2(x-x)SSTR=b(x-x)SSBL=k(x-x), , .ji.ij22j=1j=1kkbi=1行是i,列是j,j对应处理,i对应区组 F=MSTR,上侧检验,判断“处理”均值是否相等(多个,一个对应一个处理) MSEk= the number of treatments,b= the number of blocksn,nT= the total sample size (nT = kb) 13.5

12、 析因实验 SST=i=1aj=1b2 (x-x)ijkk=1rSSA=br(xi.-x)2 i=1aSSB=ar(x.j-x)2 j=1abSSAB=ri=12 (x-x-x+x)iji.jj=1bSSE=SST-SSA-SSB-SSAB F检验体现的是每个因子的显著性 行是i,列是j,A对应i,B对应j 十四章:简单线性回归 简单线性回归方程: Lxy1Lxy1122=x1iyi-(x1i)(yi)Lxx=x1i-(xi)b1=Lxx nn;11111SSR(x1)=L2xy1Lxx;11SSE(x1)=SST-SSR(x1) =b0+b1x y(x-x)(y-y),b0=y-b1x b=

13、(x-x)总的平方和SST=(y-y) ii12i2i回归平方和SSR=误差平方和SSE=2 (y-y)i(yii)2 -ySST=SSR+SSE, 自由度: n1=1 +(n2) 判定系数 r2=SSR ,相当于y-y,所以r2越接近1,y就越接近y,拟合度就越好。 SSTy-yThe least squares line accounted for 74.6% of the total sum of squares. rxy=(b1的符号)2r2,为正,表示正相关;负则负相关。 SSESSE均方误差s=MSE=,估计的标准误差s=MSE= n-2n-2t检验: H0:b1=0, Ha:b1

14、0 b1估计的标准差 sb1=s2(x-x)ib1t= ,自由度为n-2,双侧检验 sb1b1的置信区间:b1ta/2sb1 F检验:H0:b1=0, Ha:b10 上侧检验 MSR 均方回归; MSE 均方误差 MSR=SSR/自变量个数 MSRSSR/自变量个数F= ,分子和分母自由度分别为自变量个数和n-2,上侧检验 MSESSE/(n-2)y的平均值的置信区间:confidence interval pta/2syyp,ta/2自由度为n-2 p的估计的标准差 y(xp-x)21sy+p=sn(xi-x)2y的一个个别值的预测区间:prediction interval, pta/2s

15、ind,ta/2自由度为n-2 ysind(xp-x)21=s1+n(xi-x)2回归分析: yi 与 xi 回归方程为 yi = 0.20 + 2.60 xi 自变量 系数 系数标准误 T P 常量 (b0)0.200 (sb0)2.132 0.09 0.931 xi (b1)2.6000 (sb1)0.6429 (t)4.04 0.027 S = 2.03306 R-Sq = 84.5% R-Sq = 79.3% 方差分析 来源 自由度 SS MS F P 回归 R 1 67.600 67.600 16.35 0.027 残差误差E 3 12.400 4.133 合计 4 80.000 新

16、观测值的预测值 新观 拟合值 测值 拟合值 标准误 95% 置信区间 95% 预测区间 1 10.600 syp 1.114 (7.056, 14.144) (3.223, 17.977) 新观测值的自变量值 新观 测值 xi 1 4.00 SSE s=MSE=n-2标准化残差: iyi-ysyi-yii=s syi-y1-hi 2(x-x)1i杠杆率h=+ i2n(xi-x)大约有95%标准化残差介于-2和+2之间。 简单线性回归,For the case of simple linear regression, Minitab identifies observations as havi

17、ng high leverage if hi 6/n or 0 .99, whichever is smaller. 第十五章:多元回归 R2=SSR/SST 显著性检验: F检验用于确定在应变量和所有自变量之间是否存在一个显著性的关系,上侧检验; t检验用于确定每一个单个的自变量是不是显著的自变量,双侧检验。 t检验:双侧 15.8残差分析 标准化残差: iyi-ysyi-yii=s syi-y1-hi (xi-x)2杠杆率跟自变量x有关 1hi=+n(xi-x)2学生化删除残差 df=(n1)p1,异常值在t/2以外(t/2或3(p+1)/n 库克距离,Di1 第十六章:建立模型 确定什么

18、时候增加或删除变量 上侧检验,检验增加的自变量是否是显著的 df1=增加的自变量个数;df2=n-p-1 第十八章:时间序列分析及预测 平均绝对误差 MAE=预测误差绝对值的平均数 均方误差 MSE=预测误差平方和的平均数 平均绝对百分数误差MAPE=百分数预测误差的绝对值的平均数 指数平滑预测法:Ft+1=Yt+(1) Ft ,Yt 实际值,Ft预测值 ,F2 = Y1 , 从 F3 开始预测 (t-t)(Y-Y)线性回归:b=(t-t)t12 ,0b=Y-b1t =b+bQtr1+bQtr2+bQtr3 季节估计的回归方程:Y0123时间序列分解法: n个季度移动平均中心化移动平均(Tre

19、ndt)Yt/ Trendt = Seasonal-Irregular Value按照季度将Seasonal-Irregular Value平均后得到季节指数将Yt/季节指数=消除季节影响的值求线性回归将预测值季节指数=有季节影响的数值 第十九章:非参数方法 19.1 总体中位数假设检验、匹配样本: H0: p = 0.50,Ha: p0.50 H0: p 0.50,Ha: p0.50 H0: p 0.50,Ha: p0.50 n20,利用一元二项式分布的概率BINOMDIST计算累积概率,如果是双侧要乘以2 若n20,利用二项概率正态分布近似,均值=np,标准差s=np(1-p) 首先判断x

20、与的关系,若x(表示pp(x),则+0.5;若x,则0.5 z=(x)/ 对于单侧检验,先判断x位于上侧还是下侧,再确定假设条件,确保与Ha方向一致。 19.2秩相关,威尔科克森符号秩检验:匹配样本,适用于两组数据个数相同,双侧检验 H0: Median for 1st Round - Median for 2st Round = 0; Ha:Median for 1st Round- Median for 2st Round0 mT+n(n+1),s=n(n+1)(2n+1)(当n20,近似正态分布) =T+244P(T+12.5)= P(z13-27.5),只能取T正而不能取T负 9.81

21、0719.3 MWW检验:适用于两组数据个数不同,双侧检验 H0: The two populations are identical;Ha:The two populations are not identical mW=n1(n1+n2+1)n1n2(n1+n2+1),sW=(当n17且n27时,近似正态分布) 212116.5-120P(W116)= P(z),取哪一个秩和都是一样的 16.124519.4克鲁斯卡尔-沃利斯检验(三个以上总体检验) H0: All populations are identical Ha: Not all populations are identical 19.5斯皮尔曼秩相关系数:两个数量型数据变量之间的线性关系 rs=1-6di2n(n-1)i=12n, H0: rs=0; Ha: rsrs-mrs1,z=,双侧检验 0,mrs=0 ,srs=n-1srs总体秩相关系数rs,为1意味着强正相关,-1为强负相关,0为没有相关 第21章决策分析 完全信息期望值 EVPI=| EVwPIEVwoPI |,EVwPI取每个自然状态的最大值乘以对应概率,然后相加 样本信息的期望值 EVSI=| EVwSIEVwoSI | EVSI样本信息的期望值 EVwSI自然状态样本信息条件下的期望值 EVwoSI自然状态的无样本信息条件下的期望值

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号