《实用生物统计(第2版)唐志宇-第14讲回归.ppt》由会员分享,可在线阅读,更多相关《实用生物统计(第2版)唐志宇-第14讲回归.ppt(53页珍藏版)》请在三一办公上搜索。
1、1,第二节 简单线性回归,一元线性回归一元线性回归的方差分析,2,一、“回归(regression)”的由来,父辈身高增加一个单位,儿子身高仅增加半个单位左右;父辈身高减少一个单位,儿子身高仅减少半个单位左右;子代的平均高度向中心靠近 回归效应.,3,例1,从大白鼠出生第6天起,每3天称一次体重,直到第18天.两个不同的连续变量(xi,yi),4,例1 散点图,散点沿一条直线周围分布.回归的目的:Y、X关系的形式.,5,残差ei,6,二、拟合回归直线 最小二乘估计,评价一条直线(ya+bx)与数据点(xi,yi)拟合(吻合)的好坏 残差ei平方和:最小二乘估计(least square est
2、imate):使原始数据(yi)与拟合数据(a+bxi)的差的平方和SSe最小.,7,1.模型1:过原点的直线,8,2.模型2:过定点(x0,y0)的直线,9,3.模型3:一般直线,10,最小二乘估计,第一种情况:过原点,第三种情况:,第二种情况:过定点,11,最小二乘估计(1),最小二乘原则同样适用于非线性回归,只是非线性回归模型的正则方程比较复杂,经常无解析解;,12,例1 回归方程,13,问题1:,某地调查了418岁男孩与女孩的平均身高,试描述男孩与女孩平均身高与年龄间的关系.,14,问题1:散点图,15,最小二乘估计(2),无论X和Y的真实关系是什么样的,用线性模型的最小二乘的解总是存
3、在的.So,正确选择模型很重要;用最小二乘得出的结果要经过假设检验.,16,三、一元线性回归模型假设(LINE),(Line)线性性:Y与X之间是线性关系:(Independence)独立性:样本独立(Normal)正态性:误差服从正态分布,均值为0.(Equal)方差齐性:不同X值对应的的方差完全相同。即:,17,1.一元线性回归模型假设(LINE),Hfather,Hson,18,截距,斜率,称为回归系数.给定X 下Y 的估计值.给定X 下Y 的平均值Y 的条件数学期望.,回归直线的意义,19,例1 回归方程的含义,斜率(1.5167)日龄每增长1天,平均体重增加1.5167g出生x天的大
4、白鼠,体重为:出生x天的大白鼠,平均体重为:,20,If b0,Hfather,Hson,21,问题2:b0?,某研究小组随即抽查了20名15岁健康男童,测量其身高(h)与体重(w):,22,2.参数的点估计、区间估计和假设检验,参数的点估计、区间估计和假设检验,参数的点估计、区间估计和假设检验,25,例1 参数的检验(P215,例5.2),26,例1 参数的检验(P215,例5.2),27,3.分解数据,模型:y的变化 x的作用随机误差,28,分解数据,随机,x的作用随机,29,总离差平方和的分解,Syy:总离差平方和SSe:残差平方和,反映随机误差引起的变异SSR:回归平方和,反映随机误差
5、及X对Y的线性影响产生的变异,Syy,SSe,SSR,30,3个平方和,31,4.回归方程的检验 方差分析,Syy SSe SSR,32,例1 回归方程的检验(P219,例5.4),33,5.决定系数 R2,=X能解释变化的百分比,越接近于1,表示回归效果越好.,34,决定系数与相关系数,35,例2 模拟数据,36,例2 散点图,某作者分析淋巴细胞转换率与年龄的关系:n252,r0.2回归方程为:结论是淋巴细胞转换率与年龄密切相关.请问:这个结论是否有使用价值,为什么?,37,问题3,38,6.,39,40,41,不拒绝原假设时,所得的线性回归方程无意义:X、Y 无线性关系;误差过大,掩盖了X
6、、Y 间的线性关系;X 对Y 的影响为非线性的;除X 外还有其它不可忽略的变量,从而削弱了X 对Y 的影响,用多元线性回归.,四、相关与回归,关于斜率的检验,附表C.10,44,回归分析,最小二乘原则(LSE)估计回归方程参数:、2得到回归方程:检验回归方程:H0:=0,45,例3,富有的美国加州Beverly Hills和Palm Springs地区的理疗医生在年轻人当中发现了一种新的疾病.当一个人想要体验极端速度变化的刺激,不断变换宝马L7系车的加速器和制动器,那么此人很有可能患上这种被称为宝马膝的病.这种疾病的病因一直不太明确.观察治疗学家Sausalito发现这种奇怪的疾病的严重程度与
7、患者的雅皮士程度密切相关.生物统计学基础,凌莉,P132,46,例3,1.测量这种疾病的严重程度仅需用量角器测量膝关节活动度(ROM).2.雅皮士程度得分(CHICC)汽车(Cars):汽车拥有量(欧洲产越野车现代小马车、雪佛兰或小货车)健康(Health):俱乐部(网球滑雪健身)收入(Income):1万美金为单位饮食(Cuisine):香油的总消费量(公升)冰箱中芥末类型的数量服饰(Clothes):衣柜中Gucci、Lacoste和Saint Laurent等高档品牌服饰的数量,47,例3,48,小结,相关系数的含义及其计算、检验线性回归模型、回归方程的含义回归分析:最小二乘原则(LSE
8、)估计回归方程参数:、2 回归方程:y=a+bx检验回归方程:H0:=0决定系数R2,49,练习,P248 1简单线性回归分析思考与练习.doc根据下表,(1)自己提出问题;(2)针对问题,有哪些可选择的统计检验方法?每个检验方法需要的条件是什么?(无需具体计算),50,下周五上机 809,上机任务周三晚上挂网络教学中任意给定一个实数r(1r1),如何生成n个随机数据对(xi,yi)(i=1,2,n),满足:rxyr,51,考试安排,时间:1月7日,8:3010:30闭卷学生证 计算器 笔题型:选择、判断、填空、计算、问答,开放,52,答疑安排,周二 9:0011:00 617周四 9:0011:00 617周五 20:0022:00 619(安)周日 18:3020:30 61782805541,53,范围,第1章:16节第2章:13节,56节 两点、二项、泊松 均匀、正态、指数第3章:矩估计、似然估计、二项分布的区间估计第4章:第1节第5章:12节,