初识统计Firstview.ppt

上传人:小飞机 文档编号:6361996 上传时间:2023-10-20 格式:PPT 页数:19 大小:512.50KB
返回 下载 相关 举报
初识统计Firstview.ppt_第1页
第1页 / 共19页
初识统计Firstview.ppt_第2页
第2页 / 共19页
初识统计Firstview.ppt_第3页
第3页 / 共19页
初识统计Firstview.ppt_第4页
第4页 / 共19页
初识统计Firstview.ppt_第5页
第5页 / 共19页
点击查看更多>>
资源描述

《初识统计Firstview.ppt》由会员分享,可在线阅读,更多相关《初识统计Firstview.ppt(19页珍藏版)》请在三一办公上搜索。

1、统计学导论,第一讲:初识统计,中心任务:有效利用数据,Data Collection:实验设计、抽样调查Descriptive Statistics:summary statistics,graphical methods,smoothingInferential Statistics:参数估计、假设检验、回归分析、分类、预测,统计是科学方法(cf.Wiki)的一部分,Define the questionGather information and resources(observe)Form hypothesis Perform experiment and collect data An

2、alyze data Interpret data and draw conclusions that serve as a starting point for new hypothesis Publish the results Retest(frequently done by other scientists),霍乱的流行病学调查(Snow,1855),关于霍乱(cholera)致病与流行的根源:Imbalance in the humors(choler)of the bodyMiasma,or bad airPoison in the groundJohn Snow(1855)的生

3、物致病学说:致病生物经水、食物到达人体内大量繁殖)病人的排泄物携带致病生物,污染水源和食物)传染给其他人,支持Snow学说的证据,Spread along the tracks of human commerceWhen a ship entered a port where cholera was prevalent,sailors contracted the disease only when they came into contact with residents of the port,对1848 年伦敦霍乱流行的研究,首位病例John Harnold:刚从流行地区汉堡回来的海员第

4、二个病例Blenkinsopp:Harnold死后住进了Harnold的房间两栋邻近的公寓住房:一个发生严重的传染:饮用水受到污染一个未发生传染:饮用水比较干净,1854年的大爆发,通过绘制spot map,发现发病地区集中在the Broad Street pump供水区域此地有些机构传染病例很少,甚至没有:一个是酒厂,工人喜欢酒甚于水,并且有自己的供水泵一个是贫民院,也有自己的供水泵其它地区的受到传染者:多数是因为饮用了the Broad Street pump提供的水,Snow的统计研究,自来水厂的取水河段(Thames河)的污染程度vs 死亡率:水质越差,死亡率越高例外:Chelsea

5、水厂,取水区域污染严重,但它有相当现代的净化设施,绝妙的“实验”,Lambeth水厂1852年从污染河段移到上游干净河段取水Southwark&Vauxhall仍然留在严重污染河段取水两个水厂竞争激烈:客户的特征没有明显差异;相邻住户常常使用不同厂家的水样本量很大,1853-54年的流行病数据,若干统计学名词,Population:全体London居民Sample:两个水厂的供应对象Random sample,sample sizeVariables:饮用水质(好、坏),传染风险Hypothesis:坏的水质是高死亡率的原因Association vs causal relationExper

6、iments vs observational studies,模型:数据的生成机制,随机变量:取值无法预先确知的量随机变量的刻画:分布、分布函数、分布密度、均值、方差统计模型:数据:随机变量(多次重复)的观测值刻画随机变量分布的数学表达式:属于先验知识或假设,本例中的模型,水质X:X=0代表干净水,X=1代表污染水传染风险Y:Y=0代表不受传染,Y=1代表受到传染模型:P(Y=1)=a+bX,其中a,b为非负常数参数估计问题:求a,b的值假设检验:原假设b=0 vs 备择假设b0如何求解:属于统计学的职责,可以采取不同的思路,概率论是必备工具,本例是两组重复Bernoulli实验,Berno

7、ulli实验:投掷硬币(flip coin),实验结果 2 成功,失败,成功概率p20,1N次投掷成功n次的概率CnNpn(1-p)N-n二项分布:n随机变量,N已知数,p参数,受污染水厂:N0=40046,p0=a+b未污染水厂:N1=26107,p1=a观测值:n0=1263,n1=98,参数估计,主要方法:最大似然估计,Bayes估计,矩估计本例:似然函数L(a,b)=(1-a-b)38783(a+b)1263(1-a)26009a98最大似然估计(a,b)=argmaxa,bL(a,b).矩估计:概率a=E(Y|X=0)=P(Y=1|X=0)可以用频率37/104估计,a+b=P(Y=

8、1|X=1)可以用315/104估计,假设检验,考虑新参数q=p0(1-p1)/p1(1-p0),交比b=0,q=1,b0,q1给定t=n0+n1=1361,n1的分布只与q有关,q=1时P(n1=n|n0+n1=t)=CMt-n CNn/CtM+N,其中M=40046,N=26107如果q=1,则在n0+n1=1361的情况下,观测值n198的概率太小了)拒绝b=0,有关霍乱的其他工作,结局,纽约霍乱流行的应对措施:1832、1849年,克制情绪避免胆汁(choler)分泌,用水清洗街道以减少毒气)死亡率没有影响1866年采取隔离措施)死亡率明显降低1878年,Pasteur提出细菌理论,1883年Koch分离出霍乱菌(vibrio)1892年汉堡:von Pettenkofer采取降低地面毒素的措施;最后求助Koch才解决问题,初步的结论,统计远不止报表、计算百分比、平均值统计通常是科学研究的一个关键环节统计通常来自数学以外的应用领域统计很有用概率论是统计学的主要理论工具统计需要数值计算统计不大像传统的数学,作业:搜索Wiki网站的相关内容,目的:认识什么是科学方法,以及统计学在其中发挥的作用不要查阅中文Wiki,其内容很少,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号