《广义加性模型在医疗费用控制中.doc》由会员分享,可在线阅读,更多相关《广义加性模型在医疗费用控制中.doc(12页珍藏版)》请在三一办公上搜索。
1、广义加性模型在医疗费用控制中的应用天津医科大学 柯慧、贾琼、陈金彪摘要医疗费用数据往往受各种因素的影响,关系错综复杂,有可能是非正态性、比较复杂的非线性联系,对于这种情形,传统的线性结构模型很难进行精确拟合。而在实际中,对于住院费用影响因素的分析,多数研究是直接采用多重线性回归进行拟合,而没有考查因变量的分布、自变量与因变量之间的关系,或者有些研究采用一些复杂的统计学方法,使之不能广泛应用。而GAM是建立在广义线性模型和加性模型基础之上,解决了回归模型只能简单考虑线性关系的问题,同时,也避免了一些复杂的数学算法。因此,为探讨广义加性模型对住院费用影响因素研究的可行性,本文利用从天津银海2003
2、-2007年住院参保人群资料库中抽取诊断为白内障的5030例患者的住院费用进行广义加性模型拟合。该模型揭示住院费用的影响因素有医院级别,参保年度,人员类别,年龄,住院天数,耗材比例,其中年龄,住院天数,耗材比例与住院费用呈复杂的非线性关系。关键词 白内障 住院费用 影响因素 广义加性模型 Bootstrap一、研究背景与意义目前我国的医疗保障制度改革正处于关键时期,而医疗保险制度改革的关键性问题都可以归结为医疗费用的控制和约束问题。但是困扰全世界人民的一个问题医疗费用上涨的趋势并未得到有效遏制。2009年我国卫生总费用为17541.9亿元,比2008年增加3006.5亿元,增长了20.68%;
3、2009年我国人均卫生费用是1314.30元,比2008年增加了219.8元,增加了20.08%,2009卫生总费用占GDP的5.15%;2010年门诊患者人均医疗费用166.80元,比上年增加14.0元(按当年价格计算,下同),增长9.74%;住院患者人均医药费用6193.90元,比上年增加509.8元,增长8.97%(1990年门诊患者人均医疗费用10.90元,2004年为118元,1990年出院患者人均医疗费用473.30元,2004年为4284.76元)1。由上面的数据显示,医疗费用仍然呈快速上涨趋势,然而在医疗费用构成中,往往住院费用所占比例是最大的,住院费用的增加直接导致了医疗服务
4、总费用的上涨。要有效地控制医疗费用上涨,尤其是住院费用的上涨,首先需要明确住院费用的影响因素。因此探寻住院费用的影响因素,并在此基础上合理开发、利用有限的卫生资源,提高医疗质量,减少不必要的浪费,控制医疗费用的增长和制定医院经营管理对策,己经成为卫生体制改革中亟待解决的问题2。近年来,针对医疗费用过快增长的问题,国内外学者对住院费用情况和影响因素以及费用控制措施等展开了多项研究。研究表明,医疗费用数据往往受各种因素的影响,关系错综复杂,有可能是非正态性、比较复杂的非线性联系,比如大多数影响因素会在直接影响费用的同时,通过影响住院天数来间接对费用产生影响,对于这种情形,传统的线性结构模型很难进行
5、精确拟合。而在实际中,对于住院费用影响因素的分析,多数研究是直接采用多重线性回归进行拟合,而没有考查因变量的分布、自变量与因变量之间的关系,或者有些研究采用一些复杂的统计学方法,使之不能广泛应用。而GAM是建立在广义线性模型和加性模型基础之上,解决了回归模型只能简单考虑线性关系的问题,同时,也避免了一些复杂的数学算法。这种新型的统计学方法具有很高的实用性,能够帮助我们提高对数据的分析量,如能较好运用“广义加性模型”,将可大大挖掘科研结果的信息量,更科学、合理解释实际科学研究中所遇到的问题。二、数据来源1.资料来源数据来源于2003年1月1日-2007年12月31日天津银海数据库系统,随机抽取1
6、0%,选取抽取后的数据库中诊断为白内障(ICD-10编码为H25与H26.9)的全部出院的病例一共为5030例。所选对象都是入院时诊断为白内障的患者。该住院费用经正态性检验(Skewness=2.179,Kurtosis=15.063,D=0.212,P0.001),为偏态分布。2.调查内容收集患者性别、年龄、人员类别(分为在职与退休)、医院等级、住院天数、有无第二诊断等基线情况,统计患者各单项住院费用,如药品费、检验费、检查费、治疗费、输血费用、住院费用合计、医用耗材(医用耗材是指用于临床实践医疗诊断与治疗的消耗性器材、人体植入物和消毒后可重复使用且易损耗的医疗器械,在医院向患者提供医疗服务
7、过程中,经一次性使用价值即转化为费用)等。三、模型介绍广义加性模型(GAM)是Hastie和Tibshirani于1990年提出来的,是在广义线性模型和加性模型的基础上发展而来的。GAM模型和GLM模型的应用比较类似,但GAM模型着重在非参数化的数据探索分析,而GLM模型强调的是对模型参数的估计和推断。广义线性模型是线性回归模型的扩展,其x对y的期望的某个函数要求是线性的。但广义线性模型的反应变量的分布和反应变量的连接函数却可以是非常广泛的,这也是它与一般线性回归模型的不同之处3-5。可加模型也是线性回归模型的扩展,它只是用预测变量非参数的形式代替了线性回归模型中的参数形式。可加模型在预测变量
8、的效应上是可加的,保留了可加结构的解释性,为分别检验预测变量的效应提供了基础,而且克服了高维度带来的麻烦6-7。同时,它不需要严格规定反应变量对解释变量的参数依存关系,可以给出许多灵活多变的回归模型。作为两者的结合,广义加性模型唯一需做的假设是各函数项是可加的且是光滑的,集合了它们的优点8-9。GAM与传统的回归方法相比,此模型不需要事先进行线性假设,对因变量的分布不仅仅局限于正态分布,也适合于数据为二项分布、泊松分布等指数分布族的情况,而且对预测变量的形式不作具体要求,而是采用非参数的方法进行拟合,它通过“加性”的假设,将一些与因变量间存在复杂非线性关系的自变量以不同函数加和的形式拟合进入模
9、型,可以探索到变量间的非单调、非线性关系,灵活性非常强,这就决定了它是应对非线性数据的一种灵活而有效的工具10-11。广义线性模型的基本形式是:可加模型的基本形式是:广义加性模型的形式如下12: 其中,是Y的期望值,即是连接函数,是截矩是针对每一个预测变量的任意的单变量函数假定反应变量独立取自于某个单参数指数分布,则该分布具有密度函数或概率密度函数,其中为该指数类分布的自然参数,不同对应不同的,为多余参数或尺度参数,它对所有都取相同值,b和c为函数,它们决定了分布的特殊形式。从广义加性模型的形式上可看出,它对预测变量的形式没有规定,体现了其灵活性。由于它适用于很多分布类型的资料,所以对于不同类
10、型的资料,连接函数的形式也不同。具体对应关系见表112:表1 不同类型资料的连接函数形式分布连接函数正态分布单位连接二项分布Logit连接负二项分布倒数连接Gamma分布Log连接Poisson分布Log连接对可加模型的估计,与估计一般的线性模型相似,就是借助最小二乘法追求期望值与观察值间的差距达到最小。不过,可加模型在要求满足最小二乘法的同时,还要求用样条函数拟合的预测变量在结点的连接处要光滑。即用惩罚最小二乘估计方法来估计可加模型。其表达式为 其中,为各个分函数的光滑参数,使上式最小就可得到。在实际的计算中,广义加性模型求解使用的是由IRLS(iteratively-reweighted
11、least-squares algorithm)和backfitting过程合并而成的局部积分算法(Local-Scoring Procedure)。局部积分算法名称的由来是基于此算法在Fisher积分算法中整合了局部光滑方法,其中外部的Fisher积分过程用于联接函数的估计,而内部的backfitting过程用于估计光滑可加项,局部积分具体计算过程如下13:(1) 赋初值:,为连接函数(2) 循环记分步,:构建工作校正反应变量,其中,权重,(3) Backfitting内循环1) 赋初值:2) 更新:,(4)重复过程(2)和(3),直到值和光滑项稳定为止。其收敛与否可用以下收敛准则来判断:
12、对广义加性模型的估计包括连接函数的估计、每个预测变量的单变量函数的估计、光滑参数的选择。四、模型拟合结果1. 变量的赋值表2 各变量赋值情况说明变量类型影响因素代码单位或量化方法因变量住院总费用(fsje)Y住院总费用原始值自变量性别(xb)X11:男;2:女年龄(nl)X2数据库原始数据人员类别(rylb)X31:在职;2:退休第二诊断(bingfazheng)X41:无;2:有参保年度(nd)X51:2003;2:2004;3:2005;4:2006;5:2007住院天数(zyts)X6数据库原始数据医院等级(yylb)X71:一级医院;2:二级医院;3:三级医院耗材比例(hcbl)X8医
13、用材料费/住院总费用2.广义加性模型的分析结果表3 模型参数部分的参数估计变量参数估计标准误t值P值常数项375.66206300.296931.250.2110性别16.1242236.245070.440.6564二级VS一级-45.91795173.86386-0.260.7917三级VS一级1535.80764156.053939.84 .0.0001*2004VS2003-28.4792072.82482-0.390.69582005VS2003290.6867469.089454.21.0.0001*2006VS2003328.9338368.649414.79.0.0001*20
14、07VS2003315.9963770.050394.51.0.0001*人员类别175.5395683.670342.100.0360*第二诊断45.9155441.971411.090.2740Linear(年龄)-0.743752.22696-0.330.7384Linear(住院天数)301.344444.4285668.050.0001*Linear(耗材比例)6526.65208149.1570843.760.0001*表4 模型非参数部分的光滑成分分析光滑成分光滑参数自由度广义交叉认证GCV变量取不同值的数目Spline(年龄)0.999949 3.00000059600067S
15、pline(住院天数)0.9995093.00000012916108 49Spline(耗材比例)1.0000002.9921881456413 4851表5 模型非参数部分的离差分析光滑成分自由度平方和卡方值P值Spline(年龄)3.000001894279112.21560.0067Spline(住院天数)3.00000492233082317.42430.0001Spline(耗材比例)2.992191105043346712.60470.0001图1 采用样条光滑法拟合自变量后,SAS输出的光滑曲线图统计结果主要分三个部分,见表3、表4、表5,第一部分是模型的参数回归分析,以线性参
16、数形式进入模型的年龄没有统计学意义(t=-0.33,P=0.7384),住院天数、耗材比例都有意义。第二部分是光滑样条非参数分析的结果,给出相应的光滑参数、自由度、GCV的取值。第三部分是离差分析部分,用于比较全模型与不含该变量的非参数部分模型的离差,离差分析结果发现年龄、住院天数、耗材比例这三个变量的非参数效应对住院费用是有影响的。图1是采用样条光滑法拟合自变量后,SAS输出的光滑曲线图。阴影部分为预测值的95%可信区间,图中显示年龄、住院天数、耗材比例具有曲线形式,它们的95%可信区间可能不包括0。由以上结果的初步判断,去掉无统计学意义的变量,进一步拟合半参数模型。表6 模型参数部分的参数
17、估计变量 参数估计 标准误 t值P值Intercept421.21090237.657341.770.0764三级VS一级1568.5484077.7258420.18.0001*2005VS2003323.7051749.90596.490.0001*2006VS2003362.2497349.066227.38.0001*2007VS2003346.3693150.591216.850.0001*人员类别166.7378481.594122.040.0411*Linear(年龄)-1.010592.19512-0.460.6453Linear(住院天数)302.654964.2795170
18、.720.0001*Linear(耗材比例)6525.53059148.8831243.830.0001*表7 模型非参数部分的光滑成分分析光滑成分光滑参数自由度广义交叉认证GCV变量取不同值的数目Spline(年龄)0.9999493.000000 699243 67Spline(住院天数)0.9995093.00000014213275 49Spline(耗材比例)1.0000002.992188 1588873 4851表8 模型非参数部分的离差分析光滑成分自由度平方和卡方值P值Spline(年龄)3.000001858940111.99230.0074Spline(住院天数)3.000
19、00507971173327.69980.0001Spline(耗材比例)2.992191107309266714.34180.0001图2 去掉无统计学意义的自变量后,SAS输出的光滑曲线图由半参数模型拟合的结果发现,医院级别,参保年度,人员类别,年龄,住院天数,耗材比例这些因素都对住院费用的发生有影响,其中年龄,住院天数,耗材比例与住院费用呈曲线关系。3.置信区间的估计Bootstrap法是以现有样本为基础的模拟样本统计推断法,可用于研究一组数据的某统计量的分布特征,特别适用于那些难以用常规方法导出的参数的区间估计、假设检验等问题10,14-15。由于该数据分布不明确,因此,采用boots
20、trap对参数进行区间估计。该方法是基于有放回抽样理论。它是采取有放回抽样形成训练集,即已经选做的观测将放回原来的数据集中,使得它与数据集中其它的观测有相同的概率被重新抽取。本文采用最常用的0.632自引导法,即一个拥有n个观测的数据集(原始数据集)进行了n次有放回抽样,形成另一个含有n例的数据集,在该数据集中,会有(几乎肯定会)一些重复观测,那么在原始数据集中必有部分观测未被抽取,因此可选取这些未被抽取的观测作为测试集。因为观测被抽中的概率是,当N足够大,该概率逐渐逼近。因为训练集只用了63.2%的观测,用测试集进行泛化能力的估计,得到的将是一个对真实误差较为悲观的估计。为了补尝这一点,通常
21、采用0.632自引导法评估模型的性能。如计算指标是准确率,则通过计算每个bootstrap样本的准确率()和由包含所有标记样本的训练集的准确率(),从而计算最终准确率的估计值,如下公式所示。 其中b是指生成的bootstrap样本的个数。在本研究中采用了1000次自引导法对参数的置信区间进行估计。在本研究中,数据集中共有5030例观测。1个bootstrap样本是指进行5030次有放回抽样,产生一个bootstrap样本。一个bootstrap样本生成后用于训练模型,会有一部分观测没有被抽中,这部分数据用于测试,测试数据集中每个观测生成对应的预测概率。1000次bootstrap抽样的结果即是
22、每次给予不同的随机种子数,重复生成1000个bootstrap样本和1000个测试集。即用于训练的所有标记样本的概率平均值0.368+用于测试的所有样本的概率平均值0.632,计算所得的每个观测的参数进行区间估计。表9 bootstrap法估计各变量系数的结果变量名系数()(观察值)系数()(bootstrap估计)标准误95%可信区间常数项420.937446.082310.659(-170.553,1047.324)s(年龄)-1.011-1.0182.419 (-5.788,3.589)s(住院天数)302.665303.00718.189 (269.506,340.444)人员类别16
23、6.831159.998112.027 (-45.341,383.115)三级VS一级1568.6601551.325111.874 (1328.933,1772.705)2005VS2003323.741324.49451.928 (219.695,420.780)2006VS2003362.039363.41357.187 (257.385,474.940)2007VS2003346.364344.71652.732 (240.765,446.425)s(耗材比例)6525.7596519.353221.526 (6109.095,6964.236)五、模型评价如果y与x的关系符合线性假定
24、,我们可以用经典的回归模型,因为参数回归模型的构建、估计方法及算法相对简单,以及由假设条件带来的额外信息,使得参数回归模型有很高的推断精度,其结果也容易解释。但由于生命现象的复杂性,y与x的关系并不总是线性的,尤其是在探索性研究中,我们常常不能确定所要建立回归方程中各项的基本形式。对于不符合线性假定的回归数据,与其使用可能不适合的参数回归方法,不如“让数据说话” (Let the data speak for itself),使用非参数回归以获得虽然精度不高但合理的估计16。虽然对于某些数据可以通过变量变换或采用多项式回归等方法使用线性模型,但是这些方法有一定的局限性,也会损失数据信息。因此,
25、假若待分析数据不符合参数回归的线性假定或因变量的分布以及其与自变量的关系不明确时,使用参数回归并不是一个正确的选择。而广义加性模型具有非参数模型的诸多优点,如放宽了线性条件的要求,适用于任意分布的资料等。当反应变量与解释变量之间的具体依存关系不明确、反应变量的分布不易判定或不符合所要求的分布,而解释变量的个数大于1时,可以采用广义加性模型。本次研究通过广义加性模型对天津市5030例参保白内障患者住院费用的影响因素分析,不仅筛选出对其有影响的因素,为政府相关管理部门制订医疗保险相关政策以及医疗服务单位在今后的工作中如何加强自身管理、提高经济效益、减轻患者负担、实现多方共赢提供指导。另外,在方法学
26、上也提供了参考,本数据反应变量不服从正态分布,且很难判断反应变量与解释变量之间确切的依存关系,传统的线性模型假定条件不满足,而广义加性模型恰恰能解决这类难题。从分析结果可以看出,采用广义加性模型分析,年龄实际上有统计学意义;而如果采用参数回归分析,则年龄无统计学意义,从而得出错误的结论。而且利用光滑参数图可以提供更加丰富的信息,提示在今后的医学领域中可以尝试采用该方法来解决类似问题。本文存在的不足:本研究的数据是直接来源于医保系统数据库,此数据库中的信息变量太少,对一些可能影响结果的其他因素未能纳入,比如,患者的文化程度,经济状况,婚姻状况、医疗保险类型、住院治疗方式等信息。这些因素可能会影响
27、结论的可靠性与稳定性。六、政策建议本文通过广义加性模型的分析,发现对白内障病人住院费用的影响因素,包括年龄,住院天数、医院等级、材料费比例、人员类别、参保年度。因此,参保白内障患者住院费用的控制策略理应围绕这些因素展开,提出以下建议:(一)控制药品费用、材料费用所占比例,提高医护人员医疗服务价值(二)缩短平均住院日,减少不合理住院天数(三)完善社区卫生服务,合理分流人员,切实减轻患者住院费用(四)医疗保险机构应制定合理的单病种支付价格(五)提高医务人员的医德水平(六)加快相关立法,完善和加强相应的医疗服务监督约束机制参考文献1 中华人民共和国中央人民政府2009年我国卫生事业发展统计公报,EB
28、/OL (2010-04-09)2010-10-082 何平平我国医疗支出增长因素研究D北京:北京邮电大学,20073 Li,K. C., Duan, N. Regression analysis under link violationJ. Ann. Statist, 1989, 17: 1009-52.4 Nadarya, H.G. On estimating regression J. Theor Prob, 1964, 9: 141-142.5 Rosenblatt, M. Curve Estimates J. Statist, 1971, 42: 1818-1842. 6 Pries
29、tley, M.B., Chao, M.T. Non-parametric function fitting J. J.R. Statis, 1972, 4: 385-392. 7 Cleveland, W.S. Robust locally-weighted regression and smoothing scatterplotsJ. J.Am. Statist. Assoc, 1979, 74: 829-836.8 Reinsch,C.Smoothing by spline functions.Numer.Math,1976, 10: 177-83.9 Eugene Novikov, E
30、mmanuel Barillot. Regulatory network reconstruction using an integral additive model with flexible kernel functions J. BMC Systems Biology, 2008, 2: 8.10 饶克勤卫生统计方法与应用进展M北京:人民卫生出版社,2008:107-11611 Schimek MG, Turlach BA. Additive and generalized additive models. Ln: Schimek MG. Smoothing and regressio
31、n: Approaches, Computation, and Application J. New York: John Wiley, 2000.12 Hastie, T.J., Tibshirani, R.J. Generalized Additive Models J. London: Chapman and Hall, 1990.13 Green PJ, Jennison C, Seheult A. Analysis of fild experiments by least squares smoothing J. J R Statist Soc B, 1985, 47: 299-315.14 Efron B. Tibshirani RJ. An Introduction to the Bootstrap J. New York: Chapman&Hall, 1993.15 Division AC, Hinkley DV. Bootstrap methods and their application J.Cambridge university press, 1997.16 Yee TW, Mitchell ND. Generalized additive models in plant ecology J. Veg Sci, 1991, 2: 587-602.