《流感疫苗投放方案及效果评价毕业论文.doc》由会员分享,可在线阅读,更多相关《流感疫苗投放方案及效果评价毕业论文.doc(38页珍藏版)》请在三一办公上搜索。
1、四川理工学院毕业论文流感疫苗投放方案及效果评价 学 生: 学 号:07121020231专 业:数学与应用数学班 级:2007.2 指导教师:四川理工学院理学院二0一一年六月四 川 理 工 学 院毕业论文任务书论文题目: 流感疫苗投放方案及效果评价 二级学院: 理学院 专业:数学与应用数学 班级: 2007级2班 学号: 07121020231 学生: 指导教师: 接受任务时间: 2011年3月10日 教研室主任 (签名) 理学院院长 (签名)1毕业论文的主要内容及基本要求主要内容:(1)因三联装流感疫苗的制造成本较高为了降低成本,现将三联装疫苗改变成双联装,即每份疫苗当中含有两种毒株成分同时
2、将北半球和南半球分别划分为稍小的区域,并使用不同的疫苗对不同区域来进行投放,并设计了一个评估标准来评估其效果,使之能与现行方案(三联装)进行对比评价(2)在此基础上为减少病毒研究的工作量又建立自回归模型筛选出对下一年威胁较大的病毒可能爆发区域,以缩小病毒专家的研究范围,便于疫苗成分的确定和生产基本要求:在明确了主要内容基础上要做到(1)查阅文献资料,确定课题研究思路,了解课题前沿(2)理清论文思路;(3)撰写出思路清晰,逻辑合理的论文2指定查阅的主要参考文献及说明1.刘静.双联装流感疫苗投放方案的确定及效果评估D.中国矿业大学(徐州)2009.8.282.王璐.风电场的风速预测与主轴故障诊断D
3、.华北电力大学(北京).20103.愈肇元.基于时间序列分解的海面变化预测J.南京师大学报(自然科学报).2007,30(1)4.彭志行.时间序列分析在麻疹疫情预测预警中的应用研究J.中国卫生统计,2007,27(5)5.丁亚兴.自回归综合移动平均模型对天津市甲型肝炎发病预测J.疾病监测,2008,23(5) 3进度安排论文各阶段名称起 止 日 期1确定论文题目,接受任务2011年2月28日- 2011年3月10日2查阅文献资料,完成文献综述和开题报告2011年3月11日- 2011年3月31日3完成论文初稿(包括手写稿)2011年4月 1 日- 2011年4月30日4完成论文修改稿2011年
4、5月 1 日- 2011年5月25日5完成论文定稿2011年5月26日- 2011年6月15日6论文答辩2011年6月16日- 2011年6月24日摘 要流感是世界上广泛流行的疾病之一,流感病毒具极高变异性,这对流感疫苗的生产造成了很大困难因此寻找一个能够有效监控和预防流感病毒爆发的方法是目前亟待解决的问题鉴于能在人际间大范围传播的流感病毒为、和型,故本文主要针对此四种病毒的疫苗投放问题(选题来自年数学建模网络挑战赛题,见问题重述)进行研究对于问题一,首先对全球按大洲进行了划分,将病毒爆发程度分为四类,进而将爆发程度量化,得出了双联装疫苗的涵盖度然后分南北半球进行了更细致的优化划分,并提出了基
5、于疫苗涵盖度优化的洲际双联装疫苗投放方案接着建立概率评价模型,以疫苗普及率和匹配率为基本元素,构造出评价标准,可以对现行方案和新提出的方案进行比较评价对于问题二,先对文中主要研究的病毒及其亚型病毒进行数据的统计分析与计算,得到各自的扩散权重因子值,再与地域人口数量分布比例进行乘积求和,得到四种病毒的扩散权重根据扩散权重随时间的变化曲线,选择合适的数学模型ARIMA(自回归移动平均模型).利用ARIMA对数据进行分析、处理,从而得到病毒亚种的时间序列函数,并检验所建立模型的可行性最后运用ARIMA对世界范围内病毒扩散权重数据进行分析,得出优势毒株的最大可能出现区域并进行了结果分析、评价和推广关键
6、词:流感病毒;疫苗投放;评价模型;自回归移动平均模型 ABSTRACTPandemic influenza is the worlds one of the diseases, influenza virus with high variability, which is the production of flu vaccine has caused great difficulties. So to find an effective and efficient monitoring and prevention of influenza outbreaks is now solved t
7、he problem. In view of the interpersonal in a wide range of influenza viruses is, and type, so this paper, these four viruses were studied. In the first, we have been divided by continents, the outbreak of the virus were divided into four categories, and then to quantify the extent of the outbreak,
8、dual-mounted obtained degree of vaccine coverage. Northern and southern hemispheres were then sub-optimal by more detailed, and vaccine coverage level is proposed based on optimization of dual-mounted intercontinental vaccine delivery program. Then the probability assessment model established in ord
9、er to match the rate of vaccine coverage and the basic elements of evaluation criteria is constructed, can the existing programs and new programs proposed by a comparative evaluation. In the second,we study of the text of the virus and its subtypes in the statistical analysis of data and calculation
10、, by their respective valuesof the diffusion weighting factor, then the number and geographical distribution of population in proportion to the product of the sum, the spread of the virus by four weight. According to spread the weight over time curve, select the appropriate mathematical model - ARIM
11、A (autoregressive moving average model). Use of ARIMA for data analysis, processing, and thus get the virus sub-species time series function, and test the established modelfeasibility. And the use of ARIMA worldwide spread of the virus on the weight data were analyzed and the maximum possible advant
12、age of the regional strain. And make the results analysis, evaluation and promotion. Key words :Influenza virus;Degree of vaccine coverage;Probability evaluation model; Autoregressive moving average model目 录前 言1第1章 问题提出及其分析21.1 问题背景21.2 待解决的问题21.3 名词解释31.4 问题分析31.5 符号说明4第2章 模型的建立及求解5问题一:疫苗投放方案的设计和评价
13、52.1模型一的建立52.1.1 病毒的爆发程度图表量化规则52.1.2 疫苗投放方案52.1.3 对疫苗预测的评价52.1.4 模型一的进一步优化62.1.5 疫苗投放方案的评估标准82.1.6 成本与疫苗普及率的关系82.1.7 疫苗与实际流行病毒不匹配的风险的度量92.1.8 综合评价10问题二:对疫苗投放的预测102.2模型的建立102.2.1 模型引用112.2.2 ARIMA的数据化处理122.2.3 模型的识别定阶与模型参数估计142.2.4 模型的诊断检验142.2.5 ARIMA对流行毒株分析152.2.6 模型结果16第3章 结果分析18第4章 模型评价与改进及其推广204
14、.1 模型的评价及其改进204.2 模型的推广20结束语21参考文献22致 谢23附录A:第一问MATLAB程序及结果24附录B:第二问MATLAB程序及结果28文献综述31前 言年的流感病毒的蔓延给世界造成了恐慌,据世界卫生组织当年公布数据显示1,年甲型在全球造成万人亡回顾历史,流感病毒在引发的流感全球大流行,曾令世界许多地方造成大量人员死亡和无法弥补的估量的经济损失:世纪仅仅以一百年内,就爆发了三次流感大流行2,即年的葡萄牙流感,的亚洲流感,日本流感,仅仅是年的葡萄牙流感爆发,就造成了全球三千万到四千五百万人的死亡,比第一次世界大战的战争死亡人数还多,其造成的直接经济损失更是无从估量同是几
15、乎每隔一段时间,流感病毒总会在地球上猖狂的蔓延在过去近二十年内,除了在人际间传播的流感疫情,禽流感疫情的普遍发生及其广泛的病毒漂移性,受到了世界各国政府及组织的高度关注,现如今常用方法是,定点及时消灭可能带禽流感病毒的家禽但人从家禽身上感染甲型的个案仍屡见不鲜并成缓慢上升趋势,如文献6所例:瑞士曾有人在同一时间段,感染上病毒人类感染上禽流感的后果相当严重,由于飞禽的迁移性及其流感病毒的变异性,会使此类病毒变成高位病原体,给流感病毒的防治工作造成严峻的考验,威胁了人类的生命安全和经济保障故也有流感病毒的防治专家担心可能在不久的将来会爆发的流感病毒大流行故流感疫苗的研制和投放现已成为一个令人倍为关
16、注的工程现如今的流感病毒疫苗常是经过灭活或裂解处理的病毒毒株,惯用的是按南北半球投放的三联装方案,也就是每份疫苗中有三种经过灭活或裂解处理的毒株但已有专家提出,因为三联装流感疫苗的制造工序复杂,疫苗的选取繁琐,致使疫苗的制造工业成本较高,反而致使流感疫苗的普及率降低故提出了按划分区域投放的双联装本论文选题来自年数学建模网络挑战赛题,其目的在于设计一个较优的双联装流感疫苗投放模式并与现行的三联装投放模式比较,从投放疫苗与区域流感病毒的匹配率,及疫苗的投放率等角度,进行综合评价 第一章 问题提出及其分析1.1 问题背景流感是一种广泛流行于世界范围内的疾病,每次流感大流行都会造成多人死亡和巨大损失世
17、界卫生组织大力推荐将疫苗作为一种有效的预防措施来抗击这种潜在的致命性疾病如果疫苗毒株和流行的病毒类型相匹配,那么大约有 的疫苗接种者能够抵抗流感的侵袭即使疫苗不能完全抵御流感的侵袭,它也可以降低流感发病的严重程度以及严重并发症的发生率但流感疫苗所能产生的抗体是短效的,所以每年流感流行季节到来前,都需要重新接种疫苗每年冬天是流感的流行季节,在流行季节到来前个月接种疫苗,能达到较为良好的防护效果流感病毒分为、(又称甲、乙、丙)三型其中型病毒容易发生变异,依其两种主要抗原(,)的不同,区分为不同的亚型现发现一共有种及种亚型同一亚型的病毒之间也可能有一些区别:型病毒的变异比较缓慢,型病毒甚少对人类造成
18、威胁由于流感病毒种类多样、变异迅速,所以每年使用的疫苗成分并不相同世界卫生组织的专家通过对全球疫情的监控来收集数据,在每年月份预测新的流行季节中流感流行情况,并确定毒株品种作为新年度北半球流感疫苗的推荐成分同时需要给药品制造商留出半年左右时间以生产和投放市场现在的惯用推荐方案是三联装疫苗,也就是每份疫苗中有三种经过灭活或裂解处理的毒株,分别为两个型和一个型一般来说推荐的疫苗成分是型的和亚型,以及一个型毒株但每次建议的具体毒株并不相同,例如年针对北半球冬季的疫苗组成是:一个布里斯班)类似株,一个布里斯班类似株和一个佛罗里达类似株1.2 待解决的问题问题一:流感疫苗的制造成本较高,为降低成本,可以
19、设想将三联装疫苗改变成双联装,也就是每份疫苗当中含有两种毒株成分将北半球和南半球分别划分为稍小的区域,并使用不同的疫苗针对不同区域来进行投放请建立合适的模型,设计一个可行的投放方案,并设计一个评估标准来评估其效果,使之能与现行方案进行对比评价在此问题当中,可以只考虑病毒亚型,而不考虑具体毒株的选择问题二:如果考虑选择具体毒株,就需要评估和预测对下一年威胁性最大的病毒是哪个品种但如果对过去一年中所有引起流感流行的病毒都进行研究,工作量相当可观请建立合理的模型,在监测到的流感流行记录中,筛选出对下一年威胁较大的病毒可能在哪里出现,以缩小病毒专家的研究范围,便于疫苗成分的确定和生产1.3 名词解释1
20、.甲型流感病毒(Influenza A virus)又称型流感病毒:最易发生变异,流感大流行就是甲型流感病毒出现新亚型或旧亚型重现引起的2.乙型流感病毒(Influenza B virus)又称型流感病毒:常引起局限性流行3.丙型流感病毒(Influenza Cvirus)又称型流感病毒、禽流感:一般只引起散发,较少引起流行感染鸟类、猪等其他动物的流感病毒4.毒株也称病毒株,是由单个病毒粒子培养繁殖而成的纯种群体如果病毒在自然界发生了变异,那么再通过分离培养,就得到了新的毒株1.4 问题分析问题一:由于流感病毒种类多样,变异迅速,现今世界上流行的流感疫苗为三联装方案,而流感疫苗的制造成本较高,
21、如何才能使疫苗拥有良好的预防效果及低廉的成本成为人们亟待解决的问题为了确定双联装的投放方案,可构造一个成份选取函数,进而得到双联装疫苗的涵盖度,建立起了针对不同区域的投放模型并对三联装方案和优化了的双联装方案建立了概率评价模型,对两种方案进行了对比评价问题二:对于文中主要研究的四种病毒,进行数据的统计分析与计算,得到各自的扩散权重因子值,与收集所得的地域人口数量分布比例进行乘积求和得到四种病毒的扩散权重根据扩散权重随时间的变化曲线,选择合适的数学模型ARIMA(自回归移动平均模型)ARIMA模型采用数据平稳化预处理;模型的识别定阶与模型参数估计;模型的诊断检验对数据进行分析、处理,从而得到病毒
22、的时间序列函数通过年月年月相关数据求得时间序列函数的相关参数,用于计算年月年月的病毒的扩散权重,与实际测量值相比较,检验所建立模型的可行性对于评估和预测下一年的优势毒株,对年这年的数据进行分析, 运用自回归移动平均模型对世界范围内病毒扩散权重数据进行计算图1 世界范围的病毒亚型百分比以的实例画出的世界范围的病毒亚型百分比如上饼状图所示,其中蓝色表示亚型、褐色表示亚型、绿色表示型,而紫色则表示为型所占的比例1.5 符号说明:对流感蔓延程度的量化集合;:各种病毒蔓延程度量化后的值;:国家占该地区的人口百分数;:投放疫苗涵盖度:某地区疫苗成分所涵盖该地各种流感病毒的相对爆发程度的和;:疫苗总的使用效
23、果的函数;:流感病毒的主要亚型之一,即;:流感病毒的主要亚型之二,即;:流感病毒的全体亚型;:流感病毒除与外其他亚型;:第个区域中第个国家在该月病毒的扩散权值因子;:区域病毒的扩散权值因子的指数;:第个区域中第个国家的人口数;:第个区域中人口总数;:第个区域中第个国家的人口比例;:某区域病毒的扩散权重;:第个区域人口数占世界总人口数的百分比;:世界范围内第种病毒扩散权重;:病毒j在权值时间序列函数中的取值;:时间序列函数的系数;:时间序列函数的残差;:时间序列函数中残差的系数;第二章 模型的建立及求解问题一:疫苗投放方案的设计和评价2.1模型一的建立由于各大洲的划分清晰明了,便于操作,本文从现
24、有的大洲分划入手,建立了大洲模型,将全球分为六个洲区域,即非洲、美洲、亚洲、欧洲、大洋洲、南极洲2.1.1 病毒的爆发程度图表量化规则假设某种病毒的爆发程度是由爆发的广泛程度的大小来决定,由“Extent and type of seasonal influenza activity worldwide,September 2007-January 2008”表1-4,我们将爆发程度由轻到重分成零星爆发,地方性爆发,地区性爆发,广泛爆发由“2007-2008 Flu Activity Report”表格5,给定的四种爆发程度的关系,在我们假设广泛爆发的程度是地区性爆发的倍,地区性爆发是地方性爆
25、发的倍,地方性爆发是零星爆发的倍,最后分别将零星爆发,地方性爆发,地区性爆发,广泛爆发四种程度量化为,定义流感爆发程度量化集合,,其中表示对病毒爆发程度的量化得到“Extent and type of seasonal influenza activity worldwide, September 2007-January 2008”的量化表 见附录表、表2.1.2 疫苗投放方案现今世界上通行的流感疫苗均为三联株由于流感疫苗的制造成本较高,为降低成本,可以设想将一种三联装疫苗改变成三种双联装疫苗双联装使用时应该更加灵活,才能达到较好的效果,因此根据地区不同需不同对待而由表中数据可知世界上流行的
26、流感病毒主要为、,和(型病毒基本不变异),使用两联株疫苗可能无法完全涵盖病毒种类,因此两联株成分的选取要尽量覆盖尽量多的人群才能达到最佳效果故定义成分选取函数为2.1.3 对疫苗预测的评价由于疾病爆发的严重程度与患病人数有关在这里可用人口百分数来衡量同种病毒爆发情况下的严重程度,而本文之前对不同病毒引起的流感的爆发严重程度进行了量化,故总的疫苗预测的效果可以用双联装的成分所涵盖爆发流感病毒的比例与该国人口占该区域百分数的乘积和来表示,我们称之为疫苗有效度故有公式:对于R即双联装疫苗的涵盖度,有然后根据附录中表7、表8的数据,利用模型一,经计算可得各大洲的疫苗组合的优化方案,如表1:表1 各地区
27、双联装疫苗的投放方案疫苗洲H1&H3H1&AH1&BH3&AH3&BA&B最优组合非洲0.60190.50170.79510.20490.49830.3981H1&B美洲0.59430.51800.64030.35970.48200.4057H1&B亚洲0.44390.09020.63950.36050.90980.5561H3&B欧洲0.70030.58850.79010.20990.41150.2997H1&B大洋洲1.05100.44900.94160.73721.22970.6278H3&B南极洲0.59520.36461.48580.36581.48691.2564B&*2.1.4
28、模型一的进一步优化由于南北半球区域的时差性,导致流感爆发季节的不同,而有的大洲贯穿了南北半球,因此在使用疫苗时要对这些大洲进一步划分,如非洲,美洲等此处仍然根据模型一的结果对这些区域进行计算,另外虽然还有一些地区或国家被赤道穿过,但显然要使用同一种疫苗投放方案故本文在使用了模型一的结论的同时,又对特殊的国家和地区进行了手动的调整从而得到了新的南北半球各区域的两联装疫苗组合,如表2和表3表2 南半球各区域的双联装疫苗组合效果疫苗洲 H1&H3H1&AH1&BH3&AH3&BA&B最优组合非洲南0.73140.64990.91850.08150.35010.2686H1&B南美洲0.29820.4
29、9900.75300.24700.50100.7018H1&B大洋洲0.59690.13960.61190.49200.96430.5070H3&B南极洲0.14110.05521.15610.12061.22151.1356B&*表3 北半球各区域的双联装疫苗组合效果疫苗洲H1&H3H1&AH1&BH3&AH3&BA&B最优组合非洲北0.56000.45380.75510.24490.54620.4400H1&B北美洲0.75980.52860.57740.42260.47140.2402H1&H3亚洲0.44390.09020.63950.36050.90980.5561H3&B欧洲0.7
30、0030.58850.79010.20990.41150.2997H1&B又由各大洲人口统计表4:表4 各大洲人口统计情况 洲人口亚洲欧洲非洲拉美和加勒比地区北美洲澳洲南极洲人口/亿3877.268.695.53.290.33几乎0若对每部分,都采用最优方案,则在此意义下整体最优,有南半球匹配(考虑各区域人口总数所占比例进行加权)函数为:(为趋近于的正实数) 北半球匹配函数为:类似的如采用三联装方案:因为三联装疫苗的投放只按南北半球划分进行疫苗投放,而不按照洲区域划分进行投放,且每份三联装疫苗都含有一种型毒株,故模型可改为:然后根据附录中表13、表14的数据,利用模型二经计算可得南北半球各区域
31、的三联装疫苗组合的优化方案,如表5和表6:表5 南半球各区域的三联装疫苗组合效果疫苗洲 H1&H3&BH1&A&BH3&A&B最优组合非洲南1.00000.91850.3501 南美洲0.77610.97690.7249大洋洲1.08660.62930.9817南极洲1.25941.17351.2389南半球0.88180.94070.5732H1&A&B表6 北半球各区域的三联装疫苗组合效果疫苗洲H1&H3&BH1&A&BH3&A&B最优组合非洲北0.93070.82440.6156北美洲0.90430.67310.5671亚洲0.99660.64290.9132欧洲0.95090.8391
32、0.4605北半球0.97940.68610.8065H1&H3&B对每部分,都采用所在半球最优方案,则在此意义下整体最优,南半球匹配函数为:(为趋近于0的正实数)北半球匹配函数为:2.1.5 疫苗投放方案的评估标准 流感疫苗的制造成本较高,因而考虑将三联装疫苗改变成双联装,分地区投放成本的高低直接影响着疫苗的价格,易感人群的购买力因此降低疫苗成本可以使更多的人有能力使用疫苗,从而对于整体的抗击流感工作是有益的但另一方面,双联装的疫苗比三联装的疫苗需要承担更多的疫苗与实际流行病毒不匹配的风险因而我们希望建立一个评价模型,来评价2中的投放方案的效果,并与现行方案进行对比评价 2.1.6 成本与疫
33、苗普及率的关系 设疫苗的成本为,因为成本与售价之间呈现正相关的,为简化模型,不妨设它们之间成线性关系,故可设疫苗的价格.易感人群对于疫苗的价格的承受力是有一定限度的,设这个限度为可以认为:当疫苗的价格大于时,疫苗的普及率为0另外,假设易感人群都是愿意注射疫苗的,那么,当疫苗的价格足够低时,不妨设为,则疫苗普及率趋近当疫苗的价格水平很低(接近)时,提高价格对于疫苗的普及率影响不是很大,即疫苗普及率随着价格提高而降低的速度比较平缓;当疫苗的价格水平很高(接近)时,降低价格对于疫苗的普及率的影响也不是很大,也即疫苗普及率随着价格降低而提高的速度也比较平缓但是在疫苗的价格适中的时候,疫苗价格的提高或者
34、降低对于疫苗的普及率的影响却比较大(如图2所示)因而,疫苗的普及率与疫苗的价格之间的函数关系可以用“降岭函数”来描述图2 疫苗价格与普及率之间的关系“降岭函数”是一种隶属函数,各相邻等级之间的数值差距并不是相等的,在起始等级和结束等级其变化差距较大,在中间等级时其变化较之稳定,而且函数是对称的这个“等级”,就相应于上述的疫苗普及率使用“降岭函数”对于成本与疫苗普及率之间的关系进行定量描述:其中,表示疫苗价格为时的疫苗普及率72.1.7 疫苗与实际流行病毒不匹配的风险的度量 双联装的疫苗比三联装的疫苗需要承担更多的疫苗与实际流行病毒不匹配的风险事实上,无论是哪一种方案,都存在这种风险我们用疫苗与
35、实际流行病毒不匹配的概率来衡量这种风险的大小在实际计算中,年月至年月这个冬天的实际情况是未知的,所以计算年至年间的冬天的疫苗的不匹配概率是不容易实现的考虑到方案的优劣主要是由方案本身决定的,所以我们历史月份的数据进行的度量以评价方案具体而言,就是依据年月至年月的数据,建立模型确定年月至年月这个冬天所使用的疫苗而年月至年月这个冬天的实际流感病毒流行情况我们是知道的,因而比较容易计算概率p.具体过程为:(1)使用某种方案,据年月至年月的数据,确定年月至年月这个冬天所使用的疫苗 (2)参照年月至年月的数据,三种双联装疫苗不能满足实际需要的人口数占总人口数的比例这个比例即为疫苗与实际情况不匹配的概率2
36、.1.8 综合评价 (1)首先对双联装和三联装疫苗的南北半球投放匹配率E进行比较,见表7:表7 三联装与优化的双联装两种方案评价比较南半球匹配率北半球匹配率双联装0.83050.8718三联装0.94070.9794可见双联装的疫苗比三联装的疫苗需要承担更多的疫苗与实际流行病毒不匹配的风险,但它降低疫苗生产的成本,从而提高疫苗的普及率(2)由于投放方案的优劣与疫苗的普及率和疫苗的匹配率有关,并且,疫苗的普及率越高,疫苗的不匹配率低,投放方案就越优这样,我们可以 为标准进行衡量,越大,方案越优,越小,方案越劣此即为概率评价模型使用此模型,可以评估投放方案的效果,并能与现行投放方案进行对比评价问题
37、二:对疫苗投放的预测2.2模型的建立基于问题一中1.2的分析可知在相同的地理环境、医疗条件下,人口的数量对于流感扩散影响较大,在考虑流感病毒的扩散因子时,同时考虑人口比重因子:对区域病毒扩散权重数据计算为:对世界范围内第种病毒扩散权重:将所有数据进行处理后得到了流感病毒中主要分类、它是随时间的序列分布,一组依赖于时间的随机变量,而这组随机变量具有自相关性表征预测对象发展的延续性以下引入ARIMA(Autoregressive Integrated Moving Average Model),即自回归移动平均模型,通过从时间序列的过去值及现在值预测其未来的值2.2.1 模型引用定义18:自回归移
38、动平均模型为:(1)式中,和是模型的自回归阶数和移动平均阶数,是不为零的待定系数,是独立的误差项;是平稳、正态、零均值的时间序列定义28:在定义1中,设是零均值平稳序列,对任意,满足线性差分方程: (2)其中,阶自回归多项式:与q阶滑动平均多项式无公共因子,则称为阶自回归、阶滑动平均序列,简称为模型分别称为自回归阶数和滑动平均阶数,实参为自回归参数,实参数为滑动平均参数如果记其中,B是延迟算子,则(2)式可简记: 显然,模型就是模型,而模型就是模型这样显然表示一般模型有个参数要估计,看起来很繁琐,但利用计算机软件则是常规运算,并不复杂定义38:在定义2中,如果,则称满足线性差分方程的零均值平稳
39、序列为阶自回归序列,简记序列,称满足模型作为随机时间序列线性模型的基本形式之一的自回归(AR)模型在预测时,只考虑序列本身历史数据反映和包含的信息,实际上是对预测指标历史数量变化规律进行了整体概括,预测结果可信度高由于时间序列往往还存在着季节性(周期性)成分,因此在实际工作中,常采用季节性自回归(SAR)模型描述9定义48:在定义3中,如果,则称满足线性差分方程:的零均值平稳序列为阶滑动平均序列,简记为序列,这时称满足模型2.2.2 ARIMA的数据化处理应用以上模型,对数据分析处理有如下三方面:数据平稳化预处理;模型的识别定阶与模型参数估计;模型的诊断检验平稳时间序列可以看作一种线性转换装置
40、,它将白噪声(white noise)信号转换为所描述的时间序列时间序列的平稳性可通过其数据图和自相关函数来判断如果一个序列的平均值和方差始终为常数,则称它为平稳的如果数据图呈现线性或非线性趋势,则时间序列是不平稳的10以亚洲为例:将亚洲年月至年月的数据导入MATLAB中,利用其工具箱中函数进行时间原始序列拟合,得到如下的原始时间序列图,表8,表8 原始序列图时间07.307.407.507.607.708.8原始数据3325586318212ACF1.0000-0.63660.1968-0.00700.0709-0.2608PACF1.0000-0.2789-0.17120.1718-0.2
41、1460.7259时间07.907.1007.1107.1208.108.2原始数据171190224193195179ACF0.2980-0.1902-0.10720.2221-0.10750.0216PACF-0.5759-0.51510.3479-0.129200图3 原始序列图及其自相关分析图(ACF)和偏自相关分析图(PACF).其中ACF图显示出典型的短期相关性,而PACF图则显示出阶数的截尾性根据AIC准则,未知参数越多,参数估计的精度就越差分析该图中由自相关函数可得,其前面几个少数的数下降为零,其时间序列性平稳图4 自相关分析图图5 偏自相关分析图2.2.3 模型的识别定阶与模
42、型参数估计 根据ACF图的阶截尾性,我们可以构造相关的线性相关函数为:则残差尾:根据数据导入MATLAB中运行可得(结果请见附录):最终相关函数为:2.2.4 模型的诊断检验 根据数据分析,在南北半球各选取典型的一区域进行一下诊断检验根据的南非实际流感病毒的数据,我们可以得到如下柱状图,其中青色表示型病毒,黄色表示型病毒,紫红色表示亚型病毒,蓝色表示亚型病毒,在轴上对应的比例便是该病毒在四种病毒中所占的比重我们通过的数据作为既得的原始数据,而通过模型求解可以求得的数据,从而检验模型的正确性根据以上分析数据,算法设计,公式假设,函数导出,可得到如下右图4-5的柱状图在图中可清晰看到,两者数据基本
43、一致,模型具有可行性图 6 南非(预测) 图7南非(实际)图8 北美(实际) 图9 北美(预测)2.2.5 ARIMA对流行毒株分析对于评估和预测下一年的优势毒株,对年这年的数据进行分析,并根据权值计算公式计算出各个区域内中病毒亚型的权值,再将它乘以每个区域人口占世界总人口的百分比得到全球范围内的各病毒亚型所占百分比对世界范围内第种病毒扩散权重:用ARIMA进行预测可得到结果2.2.6 模型结果表9 北半球病毒亚型比重情况区域病毒亚型时间2009.12009.112009.122010.01权值百分比权值百分比权值百分比权值百分比北非H1127.84100%127.8483%127.8451%127.0335%H300%26.3817%54.2422%36.5810%B00%00%68.8627%20055%A00%00%00%00%北美洲H1158.6430%20037%561.5565%318.2741%H3162.5430%182.2634%169.2420%156.3120%B20037%151.8528%132.1615%303.739%A15.293%00%00%00%亚