乳腺癌数据的处理.docx

上传人:李司机 文档编号:7224434 上传时间:2024-07-04 格式:DOCX 页数:21 大小:209.97KB
返回 下载 相关 举报
乳腺癌数据的处理.docx_第1页
第1页 / 共21页
乳腺癌数据的处理.docx_第2页
第2页 / 共21页
乳腺癌数据的处理.docx_第3页
第3页 / 共21页
乳腺癌数据的处理.docx_第4页
第4页 / 共21页
乳腺癌数据的处理.docx_第5页
第5页 / 共21页
点击查看更多>>
资源描述

《乳腺癌数据的处理.docx》由会员分享,可在线阅读,更多相关《乳腺癌数据的处理.docx(21页珍藏版)》请在三一办公上搜索。

1、科技学院第十一组:刘晶晶向雄峰余涛乳腺癌的判别数学模型摘要本文解决的问题是利用9项指标,综合来判别乳腺肿痛是良性还是恶性。我们通过初步数据分析,得出各个指标与肿痛乩恶性存在一定的线性关系,F是我们建立了多元线性回归模型。对于问题一,我们先将附录表一中1-60组数据运用VAT1.AB中回归分析命令regress作初步的回归分析。根据所得的残差及其置信区间图,我们将其中6组离群点予以剔除.然后将余下的54组数据运用EXCe1.作回归分析,由回归统计表中可以得出回归方程中常量和各个系数,由此可以得到判别乳腺癌是良性还是恶性的多元线性回旧方程:y=-0.328580.060725.v,-0.08212

2、x,+0.105Mt,0.01.5509.v40.01.0307x,+0.042092.+0.001685x7+0.031964x,+0.034681.r.同时依据得到的回归统计、方差分析、残差分析等数据作出r检验,?-0.90732,尸检验F=47.86I35,来衡量线性回归的拟合度,以及线性方程中各参数的显著性,发现其回归程度较好,均一致认为所建立的多元线性回归模型的回归效果显著,于是我们认可所得的多元线性回归方程可以依据9项指标来判别乳腺肿痛是良性还是恶性。最后我们再将表中61-78组数据回代入上述多元线性回归方程,经由计算分析得出所得的回归方程判别乳腺肿痛是良性还是恶性的正确率高达10

3、0%,预测能力显著,明显可以看出所得到回归方程判别乳腺肿瘤是良性还是恶性方法是合理正确的。至此我们得到了依据9项指标综合判别乳腺肿痛是良性还是恶性的方法:将待判别病例的9项指标的数据代入回归方程,计算出的估计值,并对其值作四舍五入取盛,J=O,肿痛是乩性:yI,肿瘤是恶性.对于问题二,将附录表二中20组需要判别的病例的数据代入模型一中所得回归方程中计算出),的估计值,依据问通的判别方法判别得出20个病例中第1,4,5,7,10,11,15,19组共8个病例是恶性肿痛,余下12个病例是良性肿瘤.对于问题三,回归参数表中回归系数的统计量:的线性系数显著性值,表征了该系数的显著性水平,也表征了该项因

4、素对于因变员判定的影响程度,我们通过对模型一进行逐步回归分析,剔除模型中那些时因变盘作用不显著的自变量,得到最优化的线性回归模型,那些保留下来的自变量,即是区分乳腺肿痛是“良性”还是“恶性”的主要指标。作逐步回归分析后,最终所得结果为:乳腺肿霜肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、裸核、正常的核仁、有丝分裂是区分乳腺肿瘤是“良性”还是“恶性”的主要指标,得到城优化的回妇模型为:V-0.32092+0.063858.T,-0.0702Ix2O.O977O2.r,+0.47744x4+0.035044xi+0.4545k,关键词:多元线性回归模型逐步回归显著性水平检验1 .问题重述全世界

5、每年约有120万妇女患乳腺癌,50万人死于乳腺短,乳腺癌已经成为全球女性发病率最高的恶性肿瘤。下面是某医院乳腺肿痛患者的组数据见附录表,其中前面9个指标分别表示乳腺肿痛肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、边缘的粘连、单层上皮细胞的大小、裸核、温和的染色质、正常的核仁、有丝分裂,尾数0表示确诊为“良性”,1表示确诊为恶性,数据已经归一化为0到10之间的自然数,问题一、根据以上数据,请提出一种或多种判别乳腺肿痛属“良性”还是“恶性”的方法,并检验你提出的方法的正确性。问题二、现有一组乳腺肿痛患者的九个指标数据见附录一表二,谙你按照你在问题-中提出的方法分别判别属于“良性”还是“恶性”。

6、问题三、减确定哪些指标是区分乳腺肿痛是“乩性”还是“恶性”的主要指标,请采用主要指标建立区分“良性”和“恶性”乳腺肿癖的模型,以便用于乳腺肿痛的辅助诊断时可以减少化物的指标。2 .模型的假设与符号说明2.1模型的假设假设1:题目所给数据是合理、正确的。假设2:假设表中给出化验数据科学可信。确诊病例确诊情况(患病、健康)准确无误.假设3:假设各位被测患者无其他疾病,不会干扰被测数值。假设4:假设医生不会仅仅依靠化验结果对患病情况作出最终判断.化验仅仅作为医生诊断的一种辅助手段,所以化验结果单方面的现实结果可以跟实际有一定程度的偏差。假设5:题目中给出的原始数据有两组无效,将其舍去认为对解题无影响

7、。2.2符号说明jr乳腺肿瘤肿块的厚度指标:X2细胞大小的均匀性指标;XJ细胞形状的均匀性指标:X,边缘的粘连指标:X,单层上皮细胞的大小指标:X、裸核指标;X,温和的染色质指标:A正常的核仁指标:Xe有丝分裂指标:y诊断结果;y诊断结果估计值:A回归常数;,回归系数;回归常数估计值:A回归系数估计值;%随机误差项;a显著性水平:ST总变差平方和;St残差平方和:S回归平方和;n被分析数据的组数:9第i个指标作显著性水平检验;“1偏回归平方和:3 .问题分析此题研究的是修学上常用几个指标来综合判别乳腺肿瘤是良性还是恶性的数学模型。针对问逐一,题目要求我们提出判别方法,依据9项指标的数据,判别肿

8、痛病例是良性还是恶性。我们根据所提供的已确诊的病例中分析得知,肿瘤病例是良性还是恶性与各项指标呈相应的线性关系,我们初步提出否能通过病例样本中肿瘤病例是良性或恶性与各项指标来建立回归模型,再验证模型正确性后由模型来判别病例。因此,我们先选取其中一部分数据进行研究,待建立模型后,将剩余的数据代入模型检验。针对问题二,题目要求我们利用问题中提出的方法,对表二中的20个待判别的病例进行判别.我们分别将各元素的含垃输入到在问题一建立的模型中,求出对应的y值,然后和0、1进行比较,判别出哪些患者的肿痛是良性,哪些患者的肿痛是恶性。针对问题。题目耍求我们根据己知数据确定哪些指标是区分乳腺肿痛是“良性”还是

9、“恶性”的主要指标,并采用主要指标建立区分“良性”和“恶性”乳腺肿瘤的模型,以便用于乳腺肿湘的辅助诊断时可以减少化验的指标。我们通过对模a一进行逐步回归分析,剔除模型中那些对因变量作用不显著的自变星,得到最优化模型,那些保招下来的自变量,即是区分乳腺肿痛是“良性”还是“恶性”的主要指标.4 .数据分析在初步的数据分析下,肿瘤的良恶性与各指标间的关系还无法得到确定,这无疑给以后数学模型的建立和求解带来了不便。对于题目给出的化验结果,在一般情况下,都希望能对它们进行数据的规范化处理。以下9张图是肿瘤良性患者和肿痛恶性患者各个指标的坐标图,以及存有相关数据的表格,通过这些图我们可以发现,各个指标对应

10、数与乳腺肿痛是良性还是恶性诊断具有一定的线性对应关系,我们设想,可以用构建线性回归模型的方法来解决此问题。因此我们选择多元统计分析中利用exce1.中的回归工具建立I可归模型,计算出该线性方程的常量和系数,从而完成模型的初步建立。同时,我们也看到,在图中的一些点的规律性并不明显,因此我们猜测,可以在构建的方程中忽略一些因素的影响,这就为我们提出荷化模型提供了思路。回归参数表中回归系数的/统计量的值,表征J该系数的显著性水平,也表征r该项因素对丁因变址判定的影响程度,以此为衡量的标准来筛选9项相关指标,保留其中的主因项,去除非主因素的干扰,全新构建模型,以达到简化模型和提高精度的目的。5 .问题

11、一的解答针对问题我们建立了模型.5.1 模型一的建立考虑多元一次线性回归模型,我们从总体中选取1-60号病例作为研究样本,以各项指标a,为自变量:肿痛的良恶性为因变量。设多元线性回归模型的-般形式为:F=4因+四。内+40+4。+民M+A+0.x、+C其中:y因变量,/,X”.为9个对),有显著影响的自变量,A4M,4是10个待估参数,C是随机误差项。5.2模型一的求解时下=60组实际观察数据(1.j.J2,60),由式得:ytMj+Ajri+Ajfj+A+A+AA+A+A根据(2)式多元线性回归模型可表示为:y=A+AJf+Ax1+A.+4小+。y3三A+Aj*A+AQ+即”+c:(3)y.

12、=d+c+Aj+Art+4GW1,.拄立同分布I1.q-N(06)模型的相应矩阵方程表示为:尸如,(4)e-N(OJjIe)由(4)式解得:(XXyXY5)且V=I0(,O.5)其中:当y=O时,表示肿瘤为良性:当y=1.时,我们将样本数据代入(5)式,利用MAT1.B(求解源程序见附录)软件,用三t1.ab对数据进行初步运算,从残差及其置信区间图找出应6组离群点予以别除,再用EXCe1.中回归命令对剩下的54组数据组进行分析,得到回归统计衣,从而得出较为精确的结论,建立起模型。残差及其置信区间图回归统计Mu1.tip1.eR0.952533RSquare0.90732AdjustedRSqu

13、are0.888363标准误差0.168514观测值54方差分析dfSSMSFSignificanceF回归分析912.232021.35911347.861358.17E-20残差441.2494630.028397总计5313,48148Coefficients准差标误tStatP-va1.ue1.ower95%Upper95%下限95.0%上限95.0%Inter-0.328580.057-8.3E-cept3055.733070.4440.2130.4440.2137707080708XVariab1.e10.0607250.0117895.1511365.84E-060.036966

14、0.0814830.0369660.084483XVariab1.e2-0.082120.0277722.956890.0019820.138090.026150.138090.02615XVariab1.e30.105840.0280613.7718170.000480.0492870.1623920.0492870.162392XVariab1.e40.0155090.0129921.1936810.2389990.010680.0416930.010680.041693XVariab1.e50.0103070.0179210.5751540.561170.025810.0464240.0

15、25810.046424XVariab1.e60.0420920.0090074.6734762.81E-050.023940.0602440.023940.060244XVariab1.e70.0016850.0198180.0850010.9326440.038260.0416260.038260.041626XVariab1.e80.0319640.0112922.8306630.0069760.0092060.0547210.0092060.054721XVariab1.e90.0346810.0206731.6776290.100510.006980.0763450.006980.0

16、76345求得各参数的线性回归系数分别为:-0.328580.060725-0.082120.105840.0155090.0103070.0420920.16850.0319640.034681则多元线性回归方程为:=-0.32858*0.060725x1-0.0821Zx2+0.105H4r,0.0155O9x4+0.0103O7x,+0.0420924+0.001685x+0.031964。+0.0346Ix,(7)5.3模型一的检验5.3.1对回归方程进行显著性的检验R检险法(8)三三(,-2M.2SSREUJy)则-SR接近于1.,说明线性回归拟合效果显著:检验法提出假设:。:4=4

17、=A=O线性关系不显著“;.4.仇./不全一项线性关系显著计算检验统计量:SSKm.F=SSEJ三=O-j(“n-p代入数据得:R=0.9525F=47.86135查”分布表表知,2.1009因为火非常接近1,同时尸远大于匕,故拒绝。,认为在显著性水平下,y与司,勺,1之间存在显著的线性相关关系,5.3.2模型的准确性检验将表一验证样本的值代入(7)式判别出18个样本的病例情况:病历号616263646566676869结果恶性良性恶性良性恶性恶性良性良性恶性病历号707172737475767778结果良性恶性恶性良性良性良性良性良性良性根据题目中听给的已知信息.,可以看出,我们运用所求的判

18、别函数所检验的结果与实际情况几乎不存在的误差,也就是说运用一次线性模型判定的结果可信度很高。6 .问题二的解答运用问题一中所求得的的最优判别函数,我们对附录一中表二中20组病例各项指标时应数据代入模型一中进行判别(用MT1.B求解源程序见附录二),我们将结果整理可制成以卜表:表:对20组病例各项指标对应数据的务定结果病例号123-15678910结果恶性良性良性恶性恶性良性恶性良性良性恶性病历号11121314151617181920结果恶性良性良性良性恶性良性良性良性恶性良性从上表结果中我们可以得知,运用模型一中的判别方法可以判定口录一中表二中20组病例中第1,4,5,7,10,11,15,

19、)9组共8个病例是恶性肿痛,余下12个病例是良性肿瘤。7 .问题三的解答我们应用剔除法对模型中的不显著元素逐个进行剔除,最终保留卜来的元素就是区分乳腺肿蒯是“良性”还是“恶性”的主要指标。我们知道回归平方和5S/?描述/全体自变量小.对),的总影晌。为f研究某个X,的作用,光.t,把从个自变量占,七,:。中扣除下来,只考虑个自变.的影响,作这T个自变量的回归平方和,记作肾凡J并记u1.=SSR-SSKi1.t其中,为在x,X,xf,中XJ的偏回归平方和,用它来衡量在Iy对芭,三,与的线性回归中,的作用大小。由于“/的自由度为1,且/31),选统计量o,/F1=F(I.-p-1.11y-1.2.

20、9)一P-1算出的值,对给出的显著水平”,杳出尸(I-1.)代入数据得%,其中最小为KoOO77对置信水平=0.05,杳表得:/;(1.,44)三4.1009.所以考虑去掉必同理,将保利下来的项,再代入数据,求得工,其中最小为A=O.3236对置信水平以=0.05,查表得:工(1.45)=4.0566。所以我们考虑去掉月。同理,将保留卜来的项,再代入数据,求得与,其中嫌小为52.0145对置信水平=O.O5,杳表得:工(1.46):4.0517。所以我们考虑去掉乙.由于保留卜.来的K,对y有显著的线性回归作用,因此,它们所对应的指标即为区分乳腺肿痛是“良性”还是“恶性”的主要指标,它们分别是乳

21、腺肿瘤肿块的厚度、细胞大小的均匀性、细胞形状的均匀性、裸核,正常的核仁、有丝分裂。我们将对应的样本数据代入上式,利用EXCe1.软件,求得各参数项的线性回归系数分别为:4=-0.32092.=0.063858.外=-0.07021./?,=0.097702,风=0.47744./?,=0.035044.A=0.45451最终优化后的模型为:y=-0.32092+0.063858X1.-O.O7O2I勺+0.()97702x,+0.47744x6+0.035(M4.q+0.45451m8 .模型的评价、改进及推广8.1 模型评价优点:我们选取部分样本进行研究,通过回归分析建立数学判别模型,并不断

22、进行优化,最终得到拟合优度较离的模型,在判别病例的化验结果来确定就诊人员乳腺肿痛的良恶性,其准确率达到100%,即该模型的误判率为0。可见,该模型的可愫作性很强,效率很高。缺点:由于所给数据太少以致在统计数据时不是很准确,乂由于计算机模拟带有一定的随机性,以致得到模型的指标不是很让人满意.8.2模型改进对于第一问和第三问可以运用MAT1.AB软件中的回归分析命令和逐步回归命令进行解答更为方便简单。8.3模型推广该模型还可以推广到通过对若干指标的分析判别来与之相关的个体这类实际问题中去,因此我们可以把这个模型应用病虫害的预报,疾病的预测预报,以及红细胞检测,辅助诊断等领域。参考文献1姜启源,谢金

23、星,叶俊,数学模型(第三版)北京:高等教育出版社,2003.82盛骤,谢世干,潘承毅,概率论与数理统计(第-:版)北京:高等教育出版社,2001.123赵静但埼,数学建模与实验,北京:高等教育出版社,2003.64白厚义,回归设计与多元统计分析,广西:广西科学技术出版社,2003.15宋来忠,王志明,数学建模与实验,北京:科学出版社,20056赵颖,应用数理统计,北京:北京理工大学,2008.5附录附录一表-:表级已确诊乳腺肿瘤患者的数据痛块厚肿肿的度胞小均性细大的匀胞状均性细形的匀粘边的连层皮胞、单上细大裸核和染员,9温的色正常的核有丝分裂良/恶性5111213110544571032103

24、111223110688134371041132131108101087109711111121031102121213110211121115042112121101111113110211121211053332344111111233110875107955417464614311411121211041112131101077641041216111213110732105105441105536771011511121311031112121108451227311111121311052342736113211112110511121211021112121101I31211110

25、3111112110107738574312112213110312121211021112121101010108618911621111711054492105611253367751166696?7810104313365216101028107331565610131111010104818101111112121203774494811111121211041132131107872483821958123215153342434111036235410215558108737110556887111106634536118101013639118241515441523161051

26、119552225111535533410111I1122211091010110833116341523911111121211010421324310141112131105341810491183834989811I1121321051312121106102810278101133221721094510610481110641343231112122121011412121105312212110311123311021113121102221117110表二:20组乳月鼠肿瘤患者九个手占标的数据10472286115111213125222212215466410431867331

27、034211112111165584103411111213111111112118555210431103312107611111213112111211111111211117648101095311112111111111113134410513314235387615113211i1二第一向源程序:求各个回归参数值我们首先应用mat1.ab软件进行多元线性函数的回归分析,根据其中rvop1.o(r,rini)的命令找出60组数据中异常点并剔除擦.再用exce1.回归命令对剩下的数据组进行分析,从而的出较为精确的结论,初步建立起模型。最后对18组未参加建立模型的原始数据进行回代检验,由此

28、而判断起正确性,以下是我们的具体操作:I.用mai1.ab时数据进行初步运算,找出应剔除的应剔除异常组数y=00000I000000I0I100I0I1001000001000I0IIIIII0I00IIIIIIIIIII1011:XI=(55531684784I42IO2647I1023I53521310232K)652IO65IOI3I4795IO5IOIO88595I9|;x2=(1.4181101I121I3I74II7I35II22IIII7IIIIO245410610I7II8533556IO2253I101;x3=4I8IIO12IIII3156I17125II311I3I7I2

29、IIOI433IO5IOI71I7836556IO4355I10):x4=I511381I1I1I3IK)4II6IK)3II4IIIII32II8193I264I4I32I42863I1I25I1.;x5=2723212222122276224256222I222I82226I2638K)824224223IO8435623210);x6=11IO241IO10I111I339IIIK)IIO7II7IIIII5IIII1IO7310I1I9II34588561IO2328;x7=33333933I23243542343572332221273228757673824233234773355

30、54231:x8=1.217171I111I4I53II1I4IOII6IIII14III916553110I8II8I41031694II10I31;x9=IIIIII15IIII141I12141II111II13I1IIIII23II21II25I271II4II1IU:n=60;m=9;X=oncs(nJ).x,x2x3x4x5x6x7x8,x9;b.bint.r.rint.s=rcgrcss(y.X);b.bint,s.rco1.ot(r,rint)第二问源程序:对笫二问中20组数据进行检验而编写的脍证程序x-1.1111111111111111111;IB10121711111;b

31、-0.328580.060725-0.082120.105840.015510.010310.042090.001680.031960.03468);fori-1:20y=b*x(ri);fprintf*-dy-.4fn*,i,round(y);第三何源程序:在第三问中我们是根据单个指标变量对回归方程的显著性而剔出次要指标因素,从而本程序是根据多元线性回归而编写的:c1.ear;c1.c;y1.-(00010011100110001010000000010100000IO1.1.1.O1.1.1.1.11101);S1.-0;v-0.48148;fori=1.:6forj-1.三9m-(y1.

32、(i,j-eva2;S1.=S1.+m;endendfprintf(SST-.4dnS1.);y2=(0.1486819830.0693246610.1189744921.2851595210.2846113760.0723477940.1018644720.004154119-0.104523738;-0.035176632-0.010032661.0246201120.7063403350.0862726950.0879573191.1079838270.2094066460.96436467;1.1663980930.025548031-0.0942166710.737138534-0.

33、0668776110.146997358-0.0351766320.1140936830.015240964;1.027852254-0.0179834210.131387833-0.0351766321.0797162020.1237195020.8859293810.6797097461.019105172;1.070259537-0.0612198630.798865398-0.0959012960.1189744920.9195331061.0252100611.3354888061.007981748;0.9879580730.950728491.0208224740.8004821880.7016685740.5474353820.853686004-0.053809291.046099336);S2三0eve三0.48148;fori=1.:6forj-1.:9n-(y2(i,j-eva2;S2三S2+n;endendfprintf(SSR-.4tnS2);fprintf(SSE-.4fnr#S1.-S2);S=11,478511.983711.8280;12.191612.222611.6118;12.231812.004512.1521);F0三4.06

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 生活休闲 > 在线阅读


备案号:宁ICP备20000045号-2

经营许可证:宁B2-20210002

宁公网安备 64010402000987号