《电子商务概论概论与数理统计.ppt》由会员分享,可在线阅读,更多相关《电子商务概论概论与数理统计.ppt(122页珍藏版)》请在三一办公上搜索。
1、第2章 随机变量的分布及其数字特征,随机变量 分布函数,离散型随机变量及其分布,连续型随机变量及其分布,正态分布,随机变量函数的分布,随机变量的数字特征,2.1.1 随机变量(Random Variable)为了更有效地研究随机现象的规律,需要引入微积分作为工具,这就需要用变量的形式来表达随机现象。先考察下列两个随机试验的例子 例2.1 某人抛掷一枚色子,观察出现的点数。试验结果的事件表达形式:出现1点;出现2点;出现3点;出现4点;出现5点;出现6点。如果令 表示出现的点数,则 的可能取值为 于是,试验结果的变量表示为:“出现1点”;“出现2点”“出现3点”;“出现4点”“出现5点”;“出现
2、6点”,2.1 随机变量 分布函数,例2.2 某人掷硬币试验,观察落地以后出现在上面的面。试验结果的事件表达形式:国徽面在上面;有字面在上面 如果 表示国徽面在上面,表示有字面在上面。则试验结果的变量表示为:“国徽面在上面”“有字面在上面”特点:试验结果数量化了,试验结果与实数建立了对应关系,而且变量取值随着试验结果的变化而变化。,定义1:设 是一随机试验,其样本空间为,如果对于 中的每一个样本点,都有一个实数 与之对应,并且 满足:(1)是由 唯一确定;(2)对任意给定的实数,集合 都表示一个有概率的事件。则称 为一随机变量(Random Variable)。,设 为一个随机变量,对于任意实
3、数,则集合 是随机事件,随着 变化,事件 也会变化。这说明该事件是实变量 的“函数”。随机变量 与高等数学中函数的变量有所不同。(1)自变量的取值是可以在函数的定义域内随便指定,随机变量的取值只能在其取值范围内由试验的具体结果确定,具有偶然性;(2)的定义域是样本空间,值域是实数轴。随机变量的本质特性是其取值具有不确定性,在未试验之前无法确知它取哪个值。,随机变量举例与分类 例2.3 某人抛掷一枚骰子,观察出现的点数 的可能取值为。例2.4 某个灯泡的使用寿命 的可能取值为。例2.5 一部电话总机在一分钟内收到的呼叫次数 的可能取值为。例2.6 为在 区间上随机移动的点,该点的坐标 的可能取值
4、为。从随机变量取值的有限无限个,及方式的可列不可列的角度来看,随机变量可做如下分类:,有限或无穷可列取值,无穷且不可列取值,2.1.2 分布函数(Distribution Function),随机变量的概率分布 定义2:能反映随机变量取值规律的数学表达式称为随机变量的概率分布律,简称概率分布。概率分布的常用表达方式有:分布函数(“通用型”);概率函数或概率密度函数(“针对型”)。,分布函数概念 定义3:设 为随机变量,为任意实数,则 称为随机变量 的分布函数,其定义域为。显然,分布函数是一个特殊的随机事件的概率。,是一个实函数!,(1)对于任意,有(非负有界性);(2)(规范性);(3)对于任
5、意 有(非减性);(4)在每一点至少是右连续的(连续性)。,若已知随机变量 的分布函数,则对于任意 有,分布函数的性质,例2.7 已知随机变量 的所有可能取值为,取各值的概 率分别为,试求随机变量的分布函数并作其图像。,解:由题设随机变量的概率分布为,由分布函数的定义有 当 时,;当 时,当 时,;当 时,。分布函数图像如图2.1所示,图2.1,2.2 离散型随机变量及其分布,2.2.1.离散型随机变量,定义1:如果随机变量所有可能取值为有限或无穷可列,则该随机变 量称为离散型随机变量。定义2:设离散型随机变量 的所有可能取是,而取值 的概率为,即有则称该式为随机变量 的概率函数。其也可以用下
6、表表达:并称其为随机变量 的概率分布列,简称分布列。还可以通过作图直观表示,称为随机变量的概率分布图或概率函数图。,图中线的高度为 取值于该点的概率值。注意:离散型随机变量的概率分布除用分布函数可以表示以外,还可以利用概率函数或分布列或分布图表示,概率函数与分布列,分布图是等效的,概率函数比分布列表示简便,而分布图则更直观。,概率函数的两个基本性质:,(1)(非负性)(2)(归一性)。,例2.8 设袋中有五个球,3个白球2个黑球。从中任取两球,以表示取到的黑球数。求其概率函数及其概率分布函数。解:的可能取值为 分别表示事件“没有取到黑球”、“取到一个黑球”、“取到两个黑球”,则其概率函数,当
7、时,,;,当 时,,当 时,,当 时,,所以,的分布函数为,概率函数和分布函数用于描述随机变量的变化规律,它们之间的关系为:,已知概率函数求分布函数,例2.9 设随机变量的概率函数为。求常数 的值。解:由于 故而,已知分布函数求概率函数,2.2.2 常见的离散型随机变量的概率分布,引入随机变量的概念以后,客观世界中的许多随机现象,如果抛开其所涉及的具体内容,实质上可以用同一个概率模型即概率分布来表达。,1.等概分布,设 为离散型随机变量,若其分布列为:,则 称服从等概分布。该分布满足:,(1)非负性:,(2)规范性:,2.两点分布(0-1分布)若随机变量 的分布表为其中,则称 服从参数为 的两
8、点分布。记作。两点分布所能刻画的随机现象:凡是随机试验只有两个可能的结果,都可以两点分布作为其概率模型。例如:掷硬币观察正反面,产品是否合格,人口性别统计,系统是否正常,电力消耗是否超负荷等等。,例如,投一枚均匀的骰子,观察向上面的点数,用 表示向上面的点数,则 服从的等概分布。,二项分布的概率函数就是二项式 展开式中的通项(这里),所以称之为二项分布。分布中,当 时,就是两点分布,其概率函数为,(1)非负性:,则称 服从参数为 的二项分布(Binomial distribution),记为,若离散型随机变量 的概率函数为:,3.二项分布,显然,二项分布的概率函数满足:,(2)规范性:,例2.
9、10 设某学生在期末考试中,共有5门课程要考,已知该学生每门课程及格的概率为0.8。试求该学生恰好有3门课及格的概率和至少有3门课及格的概率。解:设 表示该学生恰好有3门课及格;表示该学生至少有3门课及格。显然,这是一个5重贝努里概型,从而有,凡是 重贝努里概型中随机事件 发生次数的概率分布规律都可用二项分布来刻画。,例2.11 某保险公司以往资料显示,索赔要求中有8%是因为被盗而提出来的。现已知该公司某个月共收到10个索赔要求,试求其中包含4个以上被盗索赔要求的概率。解:设 表示10个索赔要求中被盗索赔要求的个数,则 于是,所求概率为 即10各索赔要求中有4个以上被盗索赔要求的概率为0.00
10、059通过该例题的求解,可以看出:二项分布当参数 很大,而 很小时,有关概率的计算是相当麻烦的。甚至有时借助于计算工具也难实现。为了解决这种情况下的二项分布有关概率计算问题,1837年法国数学家S.D.Poisson 提出了以下定理。,Poisson定理 设随机变量,若 时,有,则有 证明:令,于是有 对于固定的 有 所以,实际应用中:当 较大,较小,适中时,即可用泊松定理的结果对二项概率进行近似计算。例2.12 某人骑摩托车上街,出事故的概率为0.02,独立重复上街400次,求至少出两次事故的概率。解:400次上街400重Bernoulli概型;记 为出事故的次数,则。由于,所以 由Pois
11、son定理有,4泊松(Poisson)分布,若随机变量 的概率函数为则称 服从参数为 的泊松分布,记为。,若某人做某事的成功率为1%,他重复努力400次,则该人成功的概率为。这表明随着实验次数的增多,小概率事件是会发生的!,显然,泊松分布的概率函数 满足:,:,(1)非负性:,;,(2)规范性:,泊松分布所能刻画随机现象:服务台在某时间段内接待的服务次数;交换台在某时间段内接到呼叫的次数;矿井在某段时间发生事故的次数;显微镜下相同大小的方格内微生物的数目;单位体积空气中含有某种微粒的数目;单位时间内市级医院急诊病人数;一本书中每页印刷错误的个数。特别注意:体积相对较小的物质,在较大的空间内的稀
12、疏分布,都可以看作泊松分布,其参数 可以由观测值的平均值求出。,这时,如果直接计算,计算量很大。由于 很大,很小,可利用泊松分布()近似计算。,解:设患有该种疾病的人数为随机变量,则 故,,例2.13 已知某种疾病的发病率为0.001,某单位现有职工5000人,问该单位患有这种疾病的人数超过5人的概率有多大?,(设 时),(1)非负性:,都是正整数,且为参数,则称 服从参数为 的超几何分布,记作。显然,它的概率函数式满足:,设离散型随机变量 的概率函数为:,5超几何分布,(2)规范性:,成立,则称 为连续型随机变量。为连续型随机变量 的概率密度函数,简称密度函数。,Def 设随机变量 的分布函
13、数为,如果存在非负的可积函数,使得对任意的,有,2.3 连续型随机变量及其分布,2.3.1 连续型随机变量,可以证明,连续型随机变量的分布函数是连续函数。随机变量的概率密度函数具有如下两条基本性质:,(1),(2),概率密度函数还具有以下性质:(3)对任意给定的,;(4)在 的连续点处,总有;(5)连续型随机变量 取任一点 的概率始终为零,即 证明:对任意的,令,则 由,有 由于 是连续型随机变量,其分布函数 是连续函数,当 时,有 所以。,该性质表明连续型随机变量的概率分布不能用逐点取值的概率表达,而只能用概率密度来表达。由此,对于连续型随机变量,有如下的结果:设任意的实数,有,求系数 的值
14、;在区间内 取值的概率;的分布函数。,例2.14 设随机变量 的概率密度函数为:,解:由概率密度函数性质(2)知,所以,当 时,;当 时,当 时,,由式 知,从而得,例2.15 设随机变量 的分布函数为 求系数;在区间 内取值的概率;的密度函数。,解:由,有,解得,。,注意:如果随机变量 具有以上形式的密度函数,则 称服从柯西分布(Cauchy distribution)。,Def 若随机变量 的概率密度函数为则称随机变量 服从区间 上的均匀分布,记为 均匀分布所能刻画随机现象:“等可能”地取区间 中的值。这里的“等可能”理解为:落在区间 中任意等长度的子区间内的可能性是相同的;或者说它落在子
15、区间内的概率只依赖于子区间的长度而与子区间的位置无关。这正是几何概型的情形。,2.3.2 几个常见的连续型随机变量的概率分布,1.均匀分布(Uniform Distribution),即,则对任意满足 的,总有 这表明,落在 的子区间 上的概率,只与子区间的长度 有关(成正比),而与子区间在区间 中的具体位置无关。均匀分布无论在理论上还是应用上都非常有价值。例2.16 某市规定公共汽车每隔10分钟发一趟班车,即每隔10分钟就要有一辆公共汽车经过公共汽车站。一位乘客随机地来到一个公共汽车站,问等车时间在5分钟之内的概率是多少?,解:设公共汽车均匀地来到车站,乘客的等车时间可以看作是区间 上的均匀
16、分布。则有 若用分布函数计算有,均匀分布的概率密度函数满足(1)非负性:(2)规范性:其图像为,图2.1,均匀分布的分布函数为求解过程黑板演示。,2.指数分布(Exponential Distribution)Def 若随机变量 的概率密度函数为则称随机变量 服从参数为 的指数分布,记为,例2.17 设 在 上服从均匀分布,求方程有实根的概率。解:方程有实数根等价于,即;所求概率为。,指数分布的概率密度函数满足(1)非负性:;(2)归一性:其图像为:,指数分布的分布函数为:求解过程与均匀分布类似,省略。指数分布所能刻画随机现象:随机服务系统中的服务时间;电话的通话时间;无线电元件的寿命;动植物
17、的寿命。,例2.18 设 服从参数为3的指数分布,试写出它的密度函数并求。解:的概率密度为,例2.19 多年统计经验表明,某厂生产的电视机寿命(单位:万小时)。某人购买了一台该厂生产的电视机,问其寿 命超过4万小时的概率是多少?,解:所求的概率为,其中,为参数,分别为形状、尺度和位置参数。则称 服从威布尔分布(Weibull distribution),记作。,若连续型随机变量 具有密度函数,3威布尔分布,当参数,时,变为为前面介绍过的指数分布,这里参数。,对于参数取不同的值,可以得出不同的曲线,其多样性使威布尔分布的适应性比较广泛,在很多方面都有应用,比如在农林科学中可以用以描述树高和胸径的
18、近似分布。,其中参数 满足,则称随机变量 服从参数为 的正态分布,记为。,2.4 正态分布(Normal Distribution),2.4.1正态分布 Def 若随机变量 的概率密度函数为,正态分布概率密度函数的图像特点:图像呈单峰状;图像关于直线 对称;图像在点 处有拐点;图像以 轴为水平渐近线。,Gauss,参数 对密度曲线的影响,相同 不同密度曲线情况,位置参数变化,相同 不同密度曲线情况,形状参数变化,正态分布的密度函数满足:(1)非负性(2)归一性,正态分布的分布函数为 其图像是一条S型曲线,如下,正态分布所能刻画随机现象:若随机变量 受到众多相互独立的随机因素的影响,每一个别因素
19、的影响都是微小的,而且这些影响具有加性特征则 服从正态分布。例如:各种测量的误差;人的生理特征指标;工厂产品的尺寸;农作物的收获量;海洋波浪的高度;金属线的抗拉强度;热噪声电流强度;学生们的考试成绩等等。正态分布是概率论中最重要的分布,体现在以下方面:正态分布是自然界及工程技术中最常见的分布之一,大量的 随机现象都是服从或近似服从正态分布的。事实上如果一个随机指标受到诸多因素的影响,但其中任何一个因素都不起决定性作用,则该随机指标一定服从或近似服从正态分布。正态分布可以作为许多分布的近似分布。正态分布有许多其它分布所不具备的良好的性质。,2.4.2 标准正态分布 定义:在正态分布的概率密度函数
20、中,如果 时,即若随机变量 的概率密度为 则称 服从标准正态分布(Standard Normal istrution),记作 其分布函数为,标准正态分布的密度函数图为:由图可以看出,该曲线为以 轴为对称轴的单峰曲线。,标准正态分布的计算 可以由分布函数与其密度函数的关系解决:因为,所以 直接查标准正态分布的分布函数表 即可解决概率计算。思考:一般正态分布的概率计算也可以制表解决么?为什么?,利用查表法计算标准正态分布的分布函数值,例2.20 设随机变量,试求 解:查表知 所以有,一般正态分布的概率计算(标准化变换)分布函数 在求解一般正态分布的概率计算问题时,先将其转化为标准正态分布问题,然后
21、利用查表法可计算标准正态分布的分布函数值,从而解决概率计算问题。,定理2.4.1 设,令,则 也是一个随机变量,且。证明:设随机变量 的分布函数为,概率密度函数为。由分布函数的定义知,由此,易知随机变量 的概率密度函数为 这恰好是标准正态分布的概率密度函数,所以。这里称变换 为标准化变换。若,则 的分布函数为,从而有 也就是说,借助标准正态分布的分布函数表即可解决一般正态分布随机变量的概率计算问题。,例2.21 设,计算 的值。解:,例2.22 若,求 的值,此处 为常数。解:,由上例题可以得到,常用来作为质量控制依据的“”准则。即 据此认为 随机变量 落在 之外几乎不可能,因为其概率仅为0.
22、26%。,2.4.3 标准正态分布的分位数 双侧分位数 Def 设随机变量,对于给定的,如果实数 满足,则称 为标准正态分布关于 的双侧分位数。标准正态分布双侧分位数的意义如下图所示。标准正态分布双侧分位数的计算:由定义可知 直接查附表即可。,统计中常用的标准正态分布的双侧分位数有,单侧分位数 设,若有 满足,则称 为标准正态分布的 上侧分位数。设,若有 满足,则称 为标准正态分布的 下侧分位数。上下侧分位数的意义如下图所示。,上侧分位数的计算:由定义知,查标准正态分布函数值表即可得。或者可由双侧分位数与上侧分位数之间的关系求得:即关于 的上侧分位数就等于关于 的双侧分位数。下侧分位数的计算:
23、下侧分位数就等于上侧分位数的相反数。例如:,一般正态分布的分位数计算:对一般正态分布的随机变量,要求 的。先由 查标准正态分布表可得 再由 求得分位数,例2.23 某省高考采用标准化计分方法,并认为考生成绩 服从正态分布。如果录取率为30.9%,问录取分数线应划定在多少分以上?解:假设录取分数线应划定在 分以上,由 来确定 由于 查正态分布表得 故,2.5.1随机变量函数的概念,2.5 随机变量函数的分布,Y=g(X)是复合映射;,Y=g(X)是随机变量;,Y=g(X)类型取决于X的类型和实函数g(x)的性质。,本课程范围内主要讨论g(x)为非常值连续函数的情况,2.5.2随机变量函数的概率分
24、布求法,一、离散型随机变量函数的概率分布求法,已知随机变量X的概率分布列为,g(x)是定义在(-,+)上实连续函数。则Y=g(X)是离散型随机变量,且其概率函数为,一般采用倒置分布列法求Y=g(X)的分布列。,例2.24 已知随机变量X的分布列为,求Y1=2X和Y2=(X-1)2的概率分布。,二、连续型随机变量函数的概率分布求法,1.分布函数法,例2.25,例2.25揭示了正态分布的一条重要性质。即正态分布的线性变换依然服从正态分布。,例2.26,2.公式法,例2.27,例2.28,2.6 随机变量的数字特征,2.6.0 随机变量数字特征的概念,1.背景,2.随机变量数字特征的定义,能描述随机
25、变量分布某一特征的常数被称为随机变量的数字特征。诸如:数学期望、方差、矩等。,2.6.1 数学期望,以频率为权重的加权平均,反映了这7位同学高数成绩的平均状态。,1.引例,用7名学生的高数成绩来考察高数的成绩状况。设某7学生的高数成绩为90,85,85,80,80,75,60,则他们7人的平均成绩为,2.数学期望的定义 定义2.6.1(离散型随机变量的数学期望)设离散型随机变量 的概率函数为 若级数 绝对收敛,则称 的值为离散型随 机变量 的数学期望,简称期望或均值,记作。即 若级数,则称 的数学期望不存在。,定义2.6.2(连续型随机变量的数学期望)设连续型随机变量 的概率密度函数为,若积分
26、 绝对收敛,则称 的值为连续型随机变量X 的数学期望,简称期望或均值,记作。即 若,则称X的数学期望不存在。,3.随机变量数学期望所反应的意义 随机变量的数学期望反应了随机变量所有可能取值的 平均值,是随机变量所有可能取值的最佳代表。例2.29 已知随机变量 的概率分布率为 求.解:由离散型随机变量数学期望定义得,例2.30 设连续型随机变量 的概率密度函数为求.解:由定义可得或利用奇函数的性质,例2.31,4.常用随机变量的数学期望(1)两点分布 若随机变量 服从两点分布,即其分布列为 其中 则(2)二项分布 若,则其概率函数为,其中,故 所以,(3)泊松分布 若,则其概率函数为 其中,于是
27、 所以。,(4)超几何分布 若,则其概率函数为 故,(5)均匀分布 若,则其概率密度函数为 所以,(6)指数分布 若,则其概率密度函数为 其中。所以,(7)正态分布 若,则其概率密度函数为 所以,5.一元随机变量函数的数学期望,是随机变量 的函数,(1)离散型,(2)连续型,该公式的重要性在于:当我们求Eg(X)时,不必知道g(X)的分布,而只需知道X的分布就可以了.这给求随机变量函数的期望带来很大方便.,解:因为,例2.33 已知 的分布表如下,试求 及 的数学期望。解:,例2.34 已知随机变量,求 的数学期望。,解:由定义计算,6.随机变量数学期望的简单性质,数学期望在医学上的一个应用A
28、n application of Expected Value in Medicine,考虑用验血的方法在人群中普查某种疾病。集体做法是每10个人一组,把这10个人的血液样本混合起来进行化验。如果结果为阴性,则10个人只需化验1次;若结果为阳性,则需对10个人再逐个化验,总计化验11次。假定人群中这种病的患病率是10%,且每人患病与否是相互独立的。试问:这种分组化验的方法与通常的逐一化验方法相比,是否能减少化验次数?,分析:,设随机抽取的10人组所需的化验次数为X,需要计算X的数学期望,然后与10比较,化验次数X的可能取值为1,11,先求出化验次数X的分布律,X=1=“10人都是阴性”,X=1
29、1=“至少1人阳性”,结论:分组化验法的次数少于逐一化验法的次数。,注意求 X期望值的步骤!,问题的进一步讨论,1.概率p对是否分组的影响?,2.概率p对每组人数n的影响?,数学期望在使用过程中也有不便之处,主要是由于对于比较复杂的分布,计算上比较繁琐;对于有的分布,数学期望不存在;用试验观测数据计算数学期望时,若试验观测数据中有一些离群的数据(通常是指极大、极小的极端值),而又没有充分根据剔除它们的时候,用数学期望来代表全体数据取值的平均水平不是很理想。为此,概率论与数理统计中,引入如下定义表达“平均值”的数字特征。,中位数 定义2.6.3 设 是随机变量 的分布函数,如果存在实数,使得,则
30、称实数 为随机变量 的中位数,记作:说明:直观上,的中位数 反映“取值比 小及比 大的可能性相等”这种意义下的“平均值”。例2.37 设,试求其中位数 解:因为,故,于是 正态分布的中位数与数学期望一致。,2.6.2 方差 Variance,定义:设 是一随机变量,如果 存在,则称为 的方差,记作 或,方差的计算公式,均方差(标准差),即,离散型,设离散型随机变量X的概率分布为,连续型,设连续型随机变量X的分布密度为 f(x),方差的统计意义,随机变量的方差反映了随机变量所有可能取值偏离其均值 的平均偏差程度。,常见随机变量的方差,1二点分布,由前面知识可知,而,所以,2二项分布,设,由前面知
31、识可知,而,所以,3.泊松分布,设 由前面知识可知,而,所以,4.超几何分布,设XH(n,M,N),由前知识可知 而,所以,5.均匀分布,设,由前面知识可知,而,所以,6.指数分布,设,由前面所学可知,而,(若参数为)。,所以:,7正态分布,设,则由前面知识可知,。,方差的性质,1.设C是常数,则D(C)=0;2.,推论:若a,b是常数,则 4.若,则 即 在 处取得惟一的最小。,3.,证明:因为,则 所以,2.6.3 矩、偏度和峭度,随机变量的数字特征除了数学期望及方差之外,更一般地,还有中心矩及原点矩,以及由其衍生的一些数字特征,它们对于刻画随机变量概率分布都有一定的意义,在数理统计中都有
32、重要的应用。,随机变量的原点矩与中心矩,Def 设X是随机变量,若,存在,,则称其为X的k阶原点矩,,存在,,则称其为X的k阶,中心矩,,原点矩与中心矩有如下关系,显然,随机变量1阶原点矩是数学期望;2阶中心矩是方差,偏度(Measure of skewness)。,设 是随机变量,称为随机变量分布的偏斜系数,简称偏度。若 称 的分布是正偏的(不对称,向右偏);若 称 的分布是负偏的(不对称,向左偏);若 称 的分布是关于期望对称的。偏度的绝对值越大,表明偏斜程度愈大。所以偏度是描述随机变量分布偏斜方向与偏斜大小的一个数字特征。,峭度(Coeffcient of kurtosis),设 是随机变量,称 为随机变量分布的峰态系数或陡峭系数,简称峰度或峭度。表示所研究分布曲线与正态分布曲线相比较的结果。,表明的分布曲线比正态分布曲线尖峭;表明的分布曲线比正态分布曲线平坦;表明的分布曲线与正态分布曲线陡峭度相同;峰度的绝对值愈大,表明随机变量在尖峭与平坦这一特征上与正态分布的差别愈大。所以峰度是描述随机变量分布与正态分布之间陡峭程度差异大小的一个数字特征。,