《西格玛教材40-20Unit-4分析45置信区间.ppt》由会员分享,可在线阅读,更多相关《西格玛教材40-20Unit-4分析45置信区间.ppt(30页珍藏版)》请在三一办公上搜索。
1、分析(Analyze)阶段,置信区间(Confidence Intervals),Define,Measure,Analyze,Improve,Control,Step 8-Data 分析,Step 9-Vital Few X的选定,多变量研究 中心极限定理 假设检验 置信区间 方差分析,均值检验 卡方检验 相关/回归分析,Step 7-Data 收集,路径位置,理论课,目录,置信区间介绍 总体均值的置信区间总体标准差的置信区间Cp的置信区间置信区间例题,抽样估计:根据样本提供的信息对总体的某些特征进行估计或推断。估计量或统计量:用来估计总体特征的的样本指标;总体参数:待估计的总体指标。所以对
2、总体数字特征的抽样估计也叫参数估计。可分为:点估计和区间估计。,总体,样本,抽取样本,零假设备择假设P-value,预测总体特征,统计性推断,总体参数,统计量,参数估计,区间估计:根据样本估计量以一定可靠程度推断总体参数所在的区间范围。这种估计方法不仅以样本估计量为依据,而且考虑了估计量的分布,所以它能给出估计精度,也能说明估计结果的把握程度。,利用基于统计学的置信区间来量化样本的不确定性,设总体参数为,L、U为样本确定的两个样本量,对于给定的(0 1),有 P(L U)=1-则称(L,U)为参数的置信度为1-的置信区间。该区间的两个端点L、U分别称为置信下限和置信上限,通称为置信限。为显著性
3、水平;1-则称为置信度,,置信区间的定义,它表示区间估计的可靠程度或把握程度,也即所估计的区间包含总体真实的可能性。置信度为1-的置信区间也就表示以1-的可能性(概率)包含了未知总体参数的区间。置信区间的直观意义为:若作多次同样的抽样,将得到多个置信区间,那么其中有的区间包含了总体参数的真值,有点区间却未包含总体参数的真值。平均说来,包含总体参数真值的区间有(1-)*100%,反之有*100%的区间未包含总体参数真值。,置信区间的意义,绝大多数情况下,我们计算95%的置信区间(CI)这可解释为 100中大约95的CI将包含总体参数,或者 我们95%确信总体参数在此区间内反观以前,我们看到大约9
4、5%的样本平均在总体平均的2倍标准差内(正态分布时 Z=2s内的概率约为95%.)如果我们从一个工程中随机抽取一个样本并计算其平均值时,我们确信其样本的均值包含在总体中的概率是95%.,95%的置信区间,求参数置信区间时可参考下面的通用格式:置信区间=统计量K*(标准误差)这里,统计量=均值、方差、Cp等 K=基于某统计分布的常数置信区间反映我们的点估计的样本与样本间的散布 我们将考虑如下的置信区间:1)总体均值u的置信区间;2)总体方差的置信区间;3)工程能力Cp的置信区间;4)总体比例P的置信区间;,置信区间介绍,1-1)总体方差已知时,正态总体均值的区间估计,1)总体均值的置信区间,x,
5、Z,x,Z,-,+,a,a,s(),m,/,/,2,2,x,s(),x,一般公式,其中 x 称为样本均值;称为对应于a/2的Z值;称为抽样平均误差;称为抽样极限误差(x),例题1,某企业从长期实践得知,其产品直径X是一个随机变量,服从标准差为0.05的正态分布。从某日产品中随机抽取6个,测得其直径分别为14.8,15.3,15.1,15,14.7,15.1(单位:厘米)。在0.95的置信度下,试求该产品直径的均值的置信区间。,Minitab解法,将题中的6个数据输入到Minitab中的C1列路径:统计基本统计单样本Z输入相关参数(参考右图),输出结果:结论:该产品直径的均值置信区间为(14.9
6、6,15.04)cm,平均值变量 N 平均值 标准差 标准误 95%置信区间C1 6 15.0000 0.2191 0.0204(14.9600,15.0400),当样本容量相当大时,即使总体分布形式未知或总体为非正态分布,根据定理,样本均值近似服从正态分布,因此估计总体均值的方法与上述方法相同;大样本情况下,当总体方差未知而用样本方差代替时,由于t分布可用正态分布近似,所以对总体均值的估计也采用上述方法。,注意,例题2,某企业生产某种产品的工人有1000人,某日采用不重复抽样从中随机抽取100人调查他们的当日产量,样本人均产量为35件,产量的样本标准差为4.5件,试以95.5%的置信度估计平
7、均产量的置信区间。,Minitab解法,打开Minitab路径:统计基本统计量单样本Z,输出结果:结论:平均产量的均值置信区间为(34.0979,35.9021)件,平均值 N 平均值 标准误 95.5%置信区间100 35.000 0.450(34.098,35.902),输入相关参数(参考下图),1-2)总体方差未知时,正态总体均值的区间估计(小样本),一般公式,其中 x 称为样本均值;称为对应于a/2,自由度为n-1的的 t 值;称为抽样极限误差(x),t,a,/,2,n-1,S,S,例题3,某食品厂从一批袋装食品中随机抽取10袋,测得每袋重量(单位:克)分别为789、780、794、7
8、62、802、813、770、785、810、806,要求以95%的把握程度,估计这批食品的平均每袋重量的区间范围及其允许误差。,Minitab解法,将题中的10个数据输入到Minitab中的C1列路径:统计基本统计量单样本t,输入相关参数(参考右图)输出结果:结论:该产品每袋重量的均值置信区间为(778.841,803.359)克;允许误差:2.262*5.419=12.26(克),平均值变量 N 平均值 标准差 标准误 95%置信区间C1 10 791.10 17.14 5.42(778.84,803.36),2)总体标准差的置信区间,一般公式(小样本),假设我们获得一个16个数据点的样本
9、,得到的标准偏差为1.66。自由度(为16-1 或 15。Sigma的 95%(=.05)置信区间是:,例题4,用例题3的10个数据求标准差的置信区间,Minitab解法,将题中的10个数据输入到Minitab中的C1列路径:统计基本统计量图形化汇总,结论:样本的标准差是 17.14,总体标准差的95%的置信区间在 11.79和31.78之间。,输出结果,这就是说,我们有 95%把握说真实的 Cp 值在1.57 和 3.01之间,Cp=2.29(n=20)的 95%置信区间计算如右:,3)工程能力Cp的置信区间,一般公式,我们将定义一个过程,其目标值为70,USL=100,LSL=40.班上的
10、每个人都从一个平均值=70,标准差=10的分布中产生 20个随机正态数字 假设我们的“真实的”Cp=1.00.产生数据后,先用Minitab计算出Cp;再用前面的公式计算 Cp的95%置信区间;假设班里的人数为 50,我们期待至少一个 CI 不包含1.00 准备发表你的结果,Cp的置信区间Minitab模拟,1.产生20个随机数据,并保存在C12.求其工程能力,3.统计 基本统计量图形化汇总4.求总体标准差的置信区间的上限和下限.,总体标准差的置信区间 下限 Sigma 上限 样本大小8.689 11.425 16.687 20,C,Cp,Best Case),(Worst Cas,e),p,
11、(,=,-,=,=,-,=,100,40,6*8.689,1.15,100,40,0.599,现在我们可以使用这些估计的上下限来计算Cp的置信区间了,我们看到这是一个包含1.00的实际Cp 95%的置信区间,5.求Cp的置信区间,6*16.687,4)总体比率(或比例)P的置信区间,p,Z,p,Z,-,+,a,a,s(),P,/,/,2,2,p,s(),p,一般公式,其中 p 称为样本比例;称为抽样极限误差(p),例题5,某厂对一批产品的质量进行抽样检验,采用重复抽样抽取样品200只,样本良品率为85%,试计算当把握程度为90%时良品率的区间范围。,公式求法,已知:n=200,p=0.85,1-a=0.90,Za/2=1.645则将上面的数字代入公式中,得总体良品率P的置信度为90%的置信区间为:85%-4.15%P85%+4.15%;即为(80.85%,89.15%),1.在班上随机选了10名学员,调查他们考试总成绩的结果参考下面的数 据。求总体均值的 95%置信区间。730,640,540,880,710,660,890,910,430,5902.对某公司的未婚员工的月平均收入进行调查的数据如下。求出月平均的 收入的标准差的 95%置信区间。(单位元)825,500,450,280,920,1010,590,770,860,740,置信区间的课堂练习,