《经济学统计学经典真题及答案2003.doc》由会员分享,可在线阅读,更多相关《经济学统计学经典真题及答案2003.doc(39页珍藏版)》请在三一办公上搜索。
1、人大统计学考研历年真题精华版(98-10)2010年人大统计学专业课初试题2009年人大统计学专业课初试题一、有两个正态总体,均值和方差未知,但已知方差相等。从第一个总体中抽取n=16的随机样本,均值为24,方差为64;从第二个总体中抽取n=36的随机样本,均值为20,方差为49。如何检验第一个总体的均值是否大于第二个总体的均值?二、在何种情形下,回归系数的最小二乘估计不具有无偏性?说出原因并指出解决办法。三、周期过程,其中频率和振幅都是常数,而相位是一个在区间-,上服从均匀分布的随机变量。问是否平稳?说明原因。四、把一个总体分为三层,各层的权重和预估的比例见下表。待估计的参数为总体比例。如采
2、用奈曼分层抽样,请说明需要多大的样本容量才能与样本容量为600的无放回简单随机抽样有相同的估计量方差。(假设各层总体单位数量都充分大,忽略“有限总体校正系数”)层总体权重预估的层内总体比例10.50.520.30.730.20.6五、与人大出版社21世纪统计学系列教材之统计学(第二版)第四章习题第10题是一样的。六、若有线性回归模型,其中,则(1)该模型是否违背古典线性回归模型的假定?请简要说明。(2)如果对该模型进行估计,你会采用什么方法?请说明理由。七、测试某种安眠药效果,随机选40只白鼠,将其随机分为20对,再随机分为两组。第一组10对白鼠中每一对的两只分别关在不同的笼中喂养;第二组10
3、对白鼠中每一对的两只关在同一个笼中喂养。每对白鼠中随机抽取一只喂以实验的安眠药,在三个不同的时间点记录每只白鼠的活动情况:吃药后立即记录,吃药后一小时记录,吃药后两小时记录。对于不吃药的白鼠,记录时间与同一对中另外一只白鼠的记录时间相同。假定40只白鼠的初始活动状态相同。请详细阐述你用何种方法分析安眠药的效果?八、某大学从教师中抽取一个随机样本进行满意度调查。1分表示非常不满意,100分表示非常满意。数据汇总如下表,欲分析教师职称和性别对满意度有无显著性影响,则(1)你会选择什么分析方法?简述你的分析思路(可用公式说明,不需计算结果)。(2)要采用该分析方法,数据必须满足哪些几本假定?请加以说
4、明。职称男女调查人数满意度调查人数满意度教授30883082副教授30833080讲师307430752008年人大统计学专业课初试题一、(10分)07年香港一则报道说:“随着经济的增长,香港低收入家庭的比例在增长,其中低收入的家庭是指低于中位数的家庭。”请你从统计的角度对该报道做简要评论。二、(10分)经常有人说方差分析是比较多个总体的均值是否相同,但为什么叫方差分析呢?请谈谈你对方差分析的理解,并说明方差分析解决问题的基本思路。三、(10分)如果时间序列在随时间变化的过程中既有趋势又有季节变动,你认为可以建立什么样的预测模型?请你写出模型形式并加以简要说明。四、(30分)食品厂家说:净含量
5、是每袋不低于250g。但有消费者向消协反映不是250g,消协据此要求厂家自检,同时消协也从中随机抽取20袋检验。 (1)如果厂家自己检验,你认为提出什么样的原假设和备择假设?并说明理由; (2)如果从消费者利益出发,你认为应该提出什么样的原假设和备择假设?并说明理由; (3)消协抽取20袋,数据如下(略),得p值为0.4297,在=0.5的显著水平下,检验假设意味着什么?p值的含义是什么?(4)据样本数据得该食品每袋平均重量95%置信区间(241.1,257.5),你认为这种食品实际平均重量是否在该区间?为什么?五、(15分)在经典的多元线性回归模型里,针对自变量事实上是有许多假设的。(1)请
6、具体指明这些假设有哪些?(2)说明这些假设所发挥的主要作用;(3)请讨论这些假设最终产生的影响。六、(15分)在有关统计知识方面内容的中学课本里编者认为基本的抽样方式只有三种,并不包括整群抽样,请说明你赞同与否并详列理由。七、(30分)叙述贝叶斯判别分析的原理(包括完整的假设)并说明:(1)与聚类分析相比,贝叶斯判别分析赖以进行的数据结构有何特点?(2)与其他判别分析相比,贝叶斯判别分析结果的表现形式有何不同?八、(30分)在诸如大坝、码头等工程设计中,坝高和码头高度的确定十分关键,要考虑许多因素。(1)以大坝为例,概略说明需考虑的主要因素;(2)大坝高度通常利用长期洪水历史记录数据,依据几十
7、年一遇的标准确定,请写出计算坝高详细的具体步骤。(画出框图,并尽量避免过多使用文字)2007年人大统计学专业课初试题一、(20分)下面是一种零件误差的数据(单位:克):6.1 4.7 6.5 6.2 7.76.4 5.5 7.1 6.1 5.35.7 6.1 5.3 4.0 4.83.2 3.9 1.9 4.9 3.85.3 2.6 5.3 5.5 5.82.7 6.8 7.4 5.6 3.3 (1)根据涉及t分布的计算,该数据所代表的总体均值的95%置信区间为(4.637785,5.728882)。请问,若使该置信区间有意义,需要对总体进行何等假定?这种假定能不能用数据证明?是不是该区间以0
8、.95的概率覆盖真实总体均值?如果不是,说出理由及合适的说法; (2)对于该数据所代表的总体的均值进行检验:零假设为总体均值等于4.8克,备选假设为总体均值大于4.8克。如果进行t检验,需要假定哪些条件?t检验结果为p值等于0.0807。能不能说“在显著性水平为0.05时,接受零假设”?为什么?你的结论是什么?二、(20分)一家研究机构想估计在30个网络公司工作的员工每周加班的平均时间,为此进行抽样调查。请回答以下问题: (1)如果对这些员工进行随机电子邮件调查,由答复的邮件所得到的数据是不是简单随机样本?为什么? (2)抽样调查中,说“响应误差总是人们不说实话导致的”对不对?为什么?随机误差
9、是不是可以避免的? (3)这些员工的加班时间是否独立?如果不是,原因可能是什么? 三、(20分)某城市交通管理部门的一项调查表明,该城市中驾车上班的人数超过30%。但一家研究机构则认为自驾车上班的人数比例达不到这一水平。为证明自己的这一看法,该研究机构准备抽取一个简单的随机样本进行检验。 (1)请写出检验的原假设和备择假设; (2)请对小样本情况写出计算p值的公式,并论述你所依赖的分布。对大样本情况,写出检验统计量的公式以及使该统计量有意义所需要的假定的条件; (3)对于一般检验来说,如果结果表明“统计上显著”,是不是实际上也显著? 四、(10分)在对某项产品的认可的抽样调查报告中,如果报告仅
10、仅说,“对该产品认可的有90%”,那么该报告是否负责?一个负责任的调查报告应该给什么有关信息? 五、(10分)对于主成分分析,有人在进行了主成分分析之后,对得到的主成分又进行了第二次主成分分析,以得到更加精确的结果。请问,这样做是否有道理?请加以说明。什么样的数据不适宜于主成分分析?选择那些主成分累计方差贡献率为70-80%之类的准则是不是总是适用?为什么? 六、(20分)回归模型y=0+1x1+2x2+pxp+中的一定是随机误差吗?如果回答是否定的,讨论在何种情况下,答案是肯定的?此外,最小二乘回归是不是需要对误差项作出假定?如果不是,那么在什么情况下需要对误差项作出假定?作什么假定? 七、
11、(25分)对于聚类分析,请回答以下问题: (1)分层聚类前,需要对什么进行选择? (2)描述分层聚类分析的详细步骤; (3)描述K均值(快速)聚类分析的详细步骤。 八、(25分)应用多元线性回归模型y=0+1x1+2x2+pxp+,如果一个SPSS回归分析的结果如下表所示:ANOVAModelSum of SquaresdfMean SquareFSig.1RegressionResidualTotal106831048750.12431085446686.216137916495436.340 1472473106831048750.12465858997.2171622.118.000a2
12、RegressionResidualTotal111136313278.11826780182158.221137916495436.340 2471473 55568156639.05956858136.217997.312.000ba. Predictors:(Constant),Beginning Salaryb. Predictors:(Constant),Beginning Salary,Employment Category则:(1)表中所用选择自变量的方法可能是什么?(2)表中的最后一个Sig.如何求得?意义是什么?(3)请给出该表最后一个F所表示的统计量服从F分布所需要的假定条
13、件,并对该统计量服从F分布予以证明。2006年人大统计专业课初试题一、(20分)某银行为缩短到银行办理业务等待的时间,准备采用两种排队方式进行试验:一种是所有顾客都进入一个等待队列;另一种是顾客在三个业务窗口处列队三排等待。为比较那种排列方式使顾客等待的时间更短,两种排队方式各随机抽取9名顾客,得到第一种排队方式的平均等待时间为7.2分钟,标准差为1.97分钟,第二种排队方式的等待时间(单位:分钟)如下:5.5 6.6 6.7 6.8 7.1 7.3 7.4 7.8 7.8 (1)画出第二种排队方式等待时间的茎叶图; (2)比较两种排队方式等待时间的离散程度; (3)如果让你选择一种排队方式,
14、你会选择哪一种?试说明理由。 二、(20分)某企业生产的袋装食品采用自动打包机包装,每袋标准重量为100克。现从某天生产的一批产品中按重量重复抽样方式随机抽取50包进行检查,测得每包重量(单位:克)如下:每包重量/g包数96-9898-100100-102102-104104-106 2 3 34 7 4合计 50已知食品包重量服从正态分布,要求: (1)确定该种食品平均重量95%的置信区间; (2)如果厂家认为每袋食品重量不低于100克,请写出检验的原假设和备择假设; (3)利用P值进行检验和利用统计量进行检验有什么不同? (z0.05=1.645, z0.025=1.96,t0.05=1.
15、69,t0.025=2.03) 三、(20分)一家汽车制造商准备购进一批轮胎,考虑的因素主要有轮胎供应商牌和耐磨程度。为了对耐磨程度进行测试,分别在低速(40公里/小时),中速(80公里/小时),高速(120公里/小时)下进行测试。根据对5家供应商抽取的轮胎随机样本对轮胎在行驶1000公里后磨损程度进行试验,在显著水平=0.01下得到的有关结果如下:差异源SSdfMSFP-valueF crit行列误差总计1.553.480.145.17 4 2 8 140.391.740.0221.7297.680.0002360.0000027.018.65(1)不同的车速对磨损程度是否有显著影响?(2)
16、不同供应商的轮胎之间磨损程度是否显著差异?(3)在上面的分析中,你都做了哪些假设?四、(15分)说明什么条件下适合采取简单随机抽样? 五、(25分)说明回归模型的假设以及当这些假设不成立时的应对方法。 六、(20分)解释因子模型X=AF+的意义并写出模型的假设。七、(15分)以下是从中国统计年鉴-2005摘引的资料,要求:单位:元/人2003年2004年人均国内生产总值 城镇居民人均可支配收入农村居民人均纯收入91118472262210561 9422 2936 (1)根据国民经济收入分配核算原理,说明居民人均收入低于人均GDP水平的原因; (2)计算各指标的动态变动率(不考虑价格变化),对
17、其结果予以简要分析。 八、(15分)下表是中国全部国有及规模以上非国有供企业统计的主要指标,要求: (1)设计并计算反映企业经济效益的指标; (2)对经济效益指标的动态变化状况做简要分析。2003年2004年工业总产值(亿元)工业增加值(亿元)企业单位数(个)资产总计(亿元)流动资产年平均余额(亿元)固定资产净值年平均余额(亿元)负债合计(亿元)产品销售收入(亿元)产品销售成本(亿元)产品销售税金及附加(亿元)利润总额(亿元)本年应缴增值税(亿元)全部从业人员年平均人数(万人)142271 41990196222168808 71488 66008 73414143172118638 2049
18、 8337 5488 5749187221 54805219463195262 86885 73849115529187815157071 2467 11342 6396 60992005年人大统计专业课初试题一、(15分)一家网吧想了解上网人员的年龄分布状况,随机抽取25人,得到他们的年龄数据如下:15 19 22 24 3016 19 22 24 3117 20 23 25 3418 20 23 27 3819 21 23 29 41 (1)画出该组数据的茎叶图; (2)画出该组数据的箱线图; (3)根据茎叶图和箱线图说明上网者年龄分布的特征。二、(15分)设有三个总体的均值分别为:1,2
19、,3。要检验三个总体的均值是否相等(=0.05),我们为什么不先将它们简单地配对,即H0:1=2,H0:1=3,H0:2=3,然后分别进行检验,而是采用方差分析的方法? 三、(20分)某城市的餐饮管理协会估计,餐馆的月平均用水量为100吨,一家研究机构认为实际用水量要高于这个数字,该研究机构随机抽取了36家餐馆,记录了每个餐馆的月用水量(单位:吨),经过初步计算得到样本数据的部分描述统计量如下:平均 107标准误差 4.99样本标准差 29.96样本方差 897.77 (1)确定餐馆月平均用水量95%的置信区间; (2)餐馆实际月平均用水量在你所建立的置信区间里吗?请说明原因; (3)如果要检
20、验研究机构的看法是否正确,应该如何建立原假设和备择假设?请谈谈拒绝和不拒绝原假设的含义; (4)在上面的估计和检验中,你使用了统计中的哪一个重要定理?请简要解释这一定理。 (z0.05=1.645, z0.025=1.96,t0.05=1.69,t0.025=2.03)四、(20分)一家房地产评估公司想对某城市的房地产销售价格(y)与地产评估价值(x1)、房产评估价值(x2)和使用面积(x3)建立一个模型,以便对销售价格做合理预测。为此,收集了15栋住宅的房地产评估数据,经回归得到下面的有关结果(=0.05): 方差分析dfSSMSFSignificance F回归 370090029.082
21、3363343.0348.620.00残差11 5285944.25 480540.39总计1475375973.33Coefficient标准误差t StatP-valueIntercept207.9037617.04860.33690.7425X Variable 1 1.4378 0.56452.54720.0271X Variable 2 0.8545 0.26633.20910.0083X Variable 3 0.0626 0.06560.95380.3607(1)写出销售价格对地产评估价值、房产评估价值、使用面积的多元线性回归方程,并解释各回归系数的意义;(2)检验回归方程的线性
22、关系是否显著;(3)检验各回归系是否显著;(4)计算多重判定系数R2,并说明它的实际意义;(5)计算估计标准误差sy,并说明它的实际意义;(6)你认为使用面积(x3)在预测销售价格时是否有用?试说明理由。五、(42分)假设一个已知简单总体的全部真实数据列于下表:编号1 2 3 4 5 6 7 8 99.3 1.8 1.9 1.7 1.5 1.3 1.4 2.0 1.9(1)绘出散点图;(2)如果根据的数值将总体分成两个子总体,最好的分发是什么?(3)举例说明上表数据所反映的现象可能是什么?(4)计算出的总体均值和总体方差S2;(5)四种基本抽样方式中最不适合上述总体情形的是哪一种?并说明理由;
23、(6)对其余三种基本抽样方式,假定n=2,分别列出每一种方式所对应的全部可能样本,并计算样本均值的数学期望和方差;(7)计算每一种方式在此情形下的设计效应,并说明其意义。六、(8分)说明抽样里的回归估计与一般回归分析方法的联系与区别。七、(6分)请解释下面的说法:“生产核算的范围决定了收入分配和收入使用核算的范围”。 八、(9分)A、B两个地区的贫困线均为年收入1000元。A地区有11%的人年收入900元,9%的人年收入200元;B地区有1%的人年收入900元,9%的人年收入500元。 (1)根据上述数据,计算两地区的贫困者比重和贫困深度;(2分) (2)请根据贫困者比重和贫困深度对两地区贫困
24、状况进行简要的比较分析;(4分) (3)你觉得这两个指标能够准确反映两地区贫困状况的差异吗?如果不能,应当如何改进?(3分) 九、(15分)下面是某国某核算年度的国际收支平衡表(单位:亿元):一、经常账户差额 A、货物与服务 B、收益 C、经常转移二、资本与金融账户 A、资本账户B、金融账户三、储备资产四、误差与遗漏205230( )-65( )-40( ) -125-10 (1)在表中括号内填上适当的数字;(3分) (2)请解释储备资产所对应的-125亿元的含义;(3分) (3)请根据表中数字分析该国国内生产总值、国民总收入和国民可支配收入三者之间的关系;(6分) (4)根据表中数字,对于该
25、国当年国内的投融资状况你能得出何种结论?(3分)2004年人大统计专业课初试题本试卷分为两部分,一部分为必答题,计105分,一部分为选答题,计45分。第一部分 必答题1.(25分)下面是A、B两个班学生的数学考试成绩数据:A班:55 76 66 85 75 62 79 73 93 7667 85 74 61 78 71 92 79 65 8373 57 77 70 90 75 63 81 73 96B班:34 71 56 90 66 48 81 58 96 7155 85 62 44 79 57 95 68 54 8461 39 73 57 94 68 51 82 61 100(1)将两个班的
26、考试成绩用一个公共的茎制成茎叶图,比较两个班考试成绩分布的特点;(2)两个班考试成绩的描述统计量如下,试进行比较分析:A班B班平均 75中位数 75众数 73标准偏差 10.44样本方差 108.90峰值 -0.35偏斜度 0.11极差 41最小值 55最大值 96平均 68中位数 67众数 57标准偏差 17.64样本方差 311.10峰值 -0.76偏斜度 0.11极差 66最小值 34最大值 100(3)要判断考试成绩是否有离群点,可使用哪些方法?(4)要判断考试成绩是否服从正态分布,可使用那些描述性方法?2.(25分)某企业准备用三种方法组装一种新的产品,为确定哪种方法每小时生产的产品
27、数量最多,随机抽取了30名工人,并指定每人使用其中的一种方法。通过Excel进行方差分析得到下面的部分结果:方差分析表差异源SSdfMSFP-valueF crit组间2100.2459463.354131组内3836总计29(1)完成上面的方差分析表;(2)若显著性水平=0.05,检验三种方法组装的产品数量之间是否有显著性差异;(3)在上面的方差分析中包含了哪些基本假定?(4)简述多重比较的前提和作用。3.(20分)一袋中有黑、白两种球,p表示白球所占的比例,待检验假设为H0:p=1/2;H1:p=1/5。 从袋中任取4个球(放回抽样),当白球数小于2时,拒绝原假设。试给出以下内容: (1)
28、总体及其分布;(2)样本量n;(3)拒绝域;(4)第一类错误的概率。4.(15分)试举例说明方差分析中效应的意义和用效应如何表达它的数学模型。5.(20分)试证明正态线性回归模型其回归系数的最大似然估计与最小二乘估计相同。 第二部分 选答题(在下面五道题中任选三道题)6.(15分)下表是中国1992和2002两个年份国民经济核算的部分资料。要求: (1)根据资料,计算反映经济发展状况的基本总量指标和结构比例指标; (2)根据计算结果,对10年间中国经济发展特征及其变化予以简要说明。中国国民经济核算有关资料 单位:亿元1992年2002年第一产业增加值第二产业增加值第三产业增加值最终消费货物服务
29、净出口来自国外要素收入净额平均人口总数(亿人)5800117009138159522761411.64161175354035133623652794-123712.807.(15分)2003年7月,中央政府和香港特区政府签定了简称CEPA的内地与香港关于建立更紧密经贸关系的安排。其中内容之一是自2004年起,273种香港原产货物进入内地市场实行零关税;内容之二是放宽香港企业对内地投资的限制,包括投资的行业、注册资本数额和资质条件等。可以预见,由此将大大促进香港对内地的贸易和投资活动。要求:根据上述贸易和投资两方面的内容,应用国际收支平衡表原理,说明中国未来国际收支所产生的影响。(说明:根据目
30、前中国国民经济核算,仍将香港作为“非常住单位”,即作为“境外”看待。)8.(15分)假定某地区人口和劳动力就业统计数据如下表所示,要求: (1)计算有关指标,描述该地区人口基本结构状况; (2)计算有关指标,描述该地区人口变动状况; (3)计算有关指标,描述该地区劳动就业状况。单位:万人指标数值年末常住人口数 其中:女性人口数 其中:15岁及以上人口数 其中:城市人口数其中:文盲人口数当年平均常住人口数当年出生人口数当年死亡人口数当年净迁出人口数年末社会劳动力资源总数年末就业人数年末失业人数128462399050211512802791986860559.(15分)对(30)的1000元3年
31、定期寿险,死亡年末给付,保费在两年内每年缴一次。已知预定利率为5%,q30=0.02,q31=0.03,q32=0.04,假设费用发生在保年初,各年费用为:年份 每份保单 每1000元保额 占总保费的比例1 10 2.5 0.102 5 1.0 0.053 5 1.0 赔付处理费发生在死亡年末,每1000保额为10元,假设有退保。计算: (1)每年总保费; (2)第一年在总保费下的责任准备金。10.(15分)某人在25岁时计划每年初存入200元建立个人账户,如果他在60岁退休,存款利率假设恒定为4%。 (1)求退休时个人账户的累计额; (2)如果个人账户累计额在退休后以固定年金方式在30年内每
32、月领取一次,求每月可以领取的数额。2003年人大统计专业课初试题一、(15分)考虑两个国家之间按GDP进行经济比较。假定在既定汇率水平上,甲国GDP与乙国GDP之间的比例为1:20。一场金融危机放生之后,如果甲国货币相对乙国货币贬值了50%,那么,在新的汇率水平上,两国GDP之间的比例将变化为1:40。请问:我们能否根据比较结果说甲国的经济发展水平下降了50%?这种比较所包含的统计方法问题是什么? 二、(15分)假定一时期国际收支平衡表上“储备资产变动”一项为正差额100亿元,据此,应用国际收支平衡表原理判断当期国际收支的顺、逆差状况。 三、(30分)以下是某经济总体1985和2001两年份城
33、镇居民住户部门的调查资料。要求: (1)列表计算各年城镇住户部门的原始收入、可支配收入和最终消费支出;(15分) (2)计算有关指标,比较说明城镇居民住户部门经济活动特征的变化。(15分)1985年2001年营业盈余(经营净收入)10400各种收入:1.工资及补贴收入2.其他劳动收入3.利息红利收入4.其他财产收入5.养老金和离退休金收入6.社会救济收入7.其他转移收入8.借贷收入9.出售资产收入549 63 3 1 50 32 18 25 124277 422 101 133 805 321 547 123 143各种支出:1.食品支出2.衣着支出3.医疗教育交通通讯支出4.居住及家庭耐用消
34、费品支出5.购房和建房支出6.交纳各种社会保障基金7.交纳所得税8.其他各种转移支出9.借贷支出351 98 86137 22 0 0 10 592014 53314901271 903 324 75 52 608四、(30分)一家种业开发股份公司研究出三个新的小麦品种:品种一、品种二、品种三。公司为研究不同品种对产量的影响,选择了四个面积相同的地块进行试验,分别为:地块一、地块二、地块三、地块四。经过试验获得产量数据,经分析得到下面的方差分析表(=0.05):差异源 平方和 自由度 均方 统计量 P-值 临界值(SS) (df) (MS) (F)品种 _ 2 _ _ 0.0178 4.459
35、0地块 2669290 4 _ _ 0.0000 3.8379误差 _ 8 296.1总计 2675774 14(1)将方差分析表中划线部分的数值补齐;(6分)(2)分析小麦品种对产量的影响是否显著;(4分)(3)分析不同地块对产量的影响是否显著;(4分)(4)在产量变动的差异中,被品种所解释的百分比是多少?(3分)(5)在产量变动的差异中,被地块所解释的百分比是多少?(3分)(6)上面的分析包含哪些假定?(10分)五、(30分)统计资料表明,某地区职工年人均病假天数为5.1天。某公司从本公司职工中随机抽取了46名职工作为样本,测得其平均病假天数为7天,样本标准差为2.5天。公司领导想知道本公
36、司职工是否比其他单位的职工更容易生病。 (1)公司领导感兴趣的原假设和替换假设是什么?(3分) (2)若令=0.05,请用假设检验的方法帮助公司领导作出判断(写清检验步骤,并作示意图)。(10分)(z/2=1.96, z=1.645,t/2(45)=2.0141,t(45)=1.6794) (3)在假设检验中,P值代表什么含义?(6分) (4)在本例中,P=0.001说明了什么?(3分) (5)用区间估计的方法找出该公司职工病假天数与其他职工病假天数显著不同的临界点。(8分)六、(30分)关于回归分析讨论下列问题: (1)画出回归建模步骤的流程图;(7分) (2)简要描述各个步骤的内容;(8分
37、) (3)设是多元回归方程参数的最小二乘估计,证明;(8分) (4)根据,结合一元线性回归,你能看出对建模有指导意义的什么信息(7分)人大统计学考研历年真题参考解答精华版(03-09)2009年人大统计学专业课初试题参考解答一、设第一、二个总体均值分别为与,样本均值分别为与,样本方差分别为与。1.构造原假设和备择假设2.构造统计量。由于两总体方差相等,且均为正态总体,则可以构造如下检验统计量:其中则3.计算临界值。给定显著性水平,如,计算临界值,由于5030,则。4.做出决策。由于,故拒绝原假设,即认为。二、1.对于回归模型,的最小二乘估计为:。现在来看它的期望从上面可以看出,要使为无偏估计,
38、则必须满足,所以只有当时,才为有偏估计。2.使的原因: 遗漏了关键自变量,即全模型正确时,而我们误用了选模型。用选模型建模时,使得误差项中含有遗漏自变量的信息,从而期望不为零。证明过程如下证明:假设正确模型为,令,。而我们选用了模型来估计,得到,则从上式可以看出是的有偏估计。加入了无关紧要的自变量,即选模型正确,而我们误用了全模型,这样会过度提取误差项信息,使得估计量有偏。证明过程和上式差不多。这里省略。3.解决办法:在选择自变量时,对因变量有重要影响的自变量尽量考虑全面,但自变量又不是越多越好,应该去掉那些对因变量没有影响或者影响很小的自变量。具体实施办法有前进法、后退法、逐步回归法等。三、
39、是平稳过程,证明如下 即协方差函数只与有关。由平稳过程的定义知,题中所定义的过程为平稳过程。四、1.先来估计各层总体的方差。在比例估计中定义则可得如下关于总体方差的式子 从上式我们可以估计出各层的方差(由于很大,故省略系数。)2.考虑样本容量为600的简单随机抽样的方差。在简单随机抽样下总体比例的估计量为估计量方差的估计值为 3.考虑奈曼分配的情形。设抽取的样本容量为,样本量在各层的分配公式为代入数据得到则奈曼分配的估计量方差的估计为4.计算。要使奈曼分层抽样与简单随机抽样有相同估计量方差,则必须满足即 解得 五、略。六、1.来看的性质由上可看出,该模型违背古典线性回归模型的方差一致性假设,残
40、差存在异方差性。2.加权最小二乘法。当残差存在异方差时,如果还是用最小二乘法估计参数,会带来严重的后果,如下参数估计值虽是无偏的,但不是最小方差线性无偏估计;参数的显著性检验失效;回归方差的应用效果极不理想。鉴于此,我们必须寻求适当的方法对原来的估计方法进行变换,使变换后的估计方法满足同方差性假设。由于异方差性导致离差平方和中的各项的比重不一样,地位不平等,导致使用普通最小二乘法时,回归线就被拉向方差大的项。而在此题中,残差系列与自变量观测值的平方成正比,即因此当我们在平方和各项前面加入一个权重时,各项的地位就平等了。从而克服了普通最小二乘法的弊端,这就是加权最小二乘法。它实施起来简单,原理清晰,是解决本题最好的方法。 七、1.数据分析。在本题中有三个影响因素:时间、活动空间、安眠药。因变量是老鼠的活动状态,可以把它看成数值型变量。要研究的是时间、活动空间、安眠药对老鼠活动状态是否有显著的影响。我的分析思路是:首先,我把数据列成如下的表格吃药后立即记录的数据吃药不吃药关在一起分开喂养吃药后一小时记录的数据吃药不吃药关在一起分开喂养吃药后两小时记录的数据吃药不吃药关在一起