| 
 | 
 
2006高教社杯全国大学生数学建模竞赛 
 
承  诺  书 
 
我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 
我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话、电子邮件、网上咨询等)与队外的任何人(包括指导教师)研究、讨论与赛题有关的问题。 
我们知道,抄袭别人的成果是违反竞赛规则的, 如果引用别人的成果或其他公开的资料(包括网上查到的资料),必须按照规定的参考文献的表述方式在正文引用处和参考文献中明确列出。 
我们郑重承诺,严格遵守竞赛规则,以保证竞赛的公正、公平性。如有违反竞赛规则的行为,我们将受到严肃处理。 
 
我们参赛选择的题号是(从A/B/C/D中选择一项填写):  B                      
        我们的参赛报名号为(如果赛区设置报名号的话):   B甲1304                         
所属学校(请填写完整的全名): 山东理工大学                                
参赛队员 (打印并签名) :1.     周利庭                                      
                       2.     张洪雷                                      
                       3.     杨丽娜                                           
指导教师或指导教师组负责人  (打印并签名):  丁树江                              
 
                                              日期:  2006  年  9 月 18  日 
 
 
 
 
 
赛区评阅编号(由赛区组委会评阅前进行编号): 
 
2006高教社杯全国大学生数学建模竞赛 
 
编 号 专 用 页 
 
 
 
赛区评阅编号(由赛区组委会评阅前进行编号): 
 
 
 
赛区评阅记录(可供赛区评阅时使用): 
 
评 
阅 
人 
                                                                                 
 
 
评 
分 
                                                                                 
 
备 
注 
                                                                                 
 
 
 
 
全国统一编号(由赛区组委会送交全国前编号): 
 
 
 
 
 
全国评阅编号(由全国组委会评阅前进行编号): 
 
 
 
  
                  艾滋病疗法的评价及疗效的预测 
摘要 
         本文利用美国艾滋病医疗试验机构ACTG公布的ACTG320和193A数据,在合理的假设基础上,通过线性插值拟合均匀的模拟出每个被调查者每周身体中CD4细胞计数和HIV浓度,对所有的被调查者每周的CD4细胞计数和HIV浓度求平均值,这样可以得到一个关于该疗法的从时间序列角度来说较为完全的数据。用SPSS模拟出最优曲线,得出该疗法对人体CD4细胞计数影响近似为三次曲线,而对人体HIV浓度的影响在四十周以前与四十周以后可以分别用S曲线和三次曲线较好的模拟,从而可以更好的预测未来疗效。由于现行实验室艾滋病入选标准为CD4细胞计数,所以我们根据CD4细胞计数的拟合曲线,参考HIV拟合曲线,得出应该在二十七周左右终止该疗法。 
针对问题二中被随机分组的1300多名被调查者分别服用不同的药物组合的跟随检测数据,沿用问题一的数据处理方法,用均匀插值填充从第零周到最后一周的数据,得到四种疗法被调查者每周的CD4细胞计数时间序列数据,计算出使用各种疗法的所有被调查者在每个周次的CD4细胞计数的均值,经过用SPSS多次模拟,拟合出较优的针对每种疗法的模型,继而可用此模型分别预测每种疗法继续使用的疗效。由于这些数据是在随机分组的人群中获得的,所以我们假设这些样本是独立的,这样我们就可以采用统计学中的多个独立样本的非参数检验法,利用SPSS11.5软件中的多个独立样本比较秩和检验功能完成,运用Kruskal-Wallis H Test和中位数检验法在统计学意义上给出每种疗法的相对疗效大小。在仅以CD4细胞计数为标准下,该四种疗法的疗效为:疗法四最好,疗法三次之,疗法二较差,疗法一最差。服用疗法三的患者应该在二十五周左右停药,而服用疗法四的最好在十九周左右停止用该种药。 
作为问题二的延伸,考虑不同疗法对不同年龄的艾滋病患者有不同的疗效,将年龄分为三组来找出不同年龄段的最佳治疗方法。同上运用SPSS中的Kruskal-Wallis H Test和中位数检验法给出了适合于不同年龄段的最优疗法: 
第一个年龄段(15~25岁)        疗法1 
第二个年龄段(25~40岁)        疗法3 
第三个年龄段(40岁以后)        疗法4 
如果患者还要考虑治疗费用,这样就有费用和疗效两个因素影响最优疗法的选择问题。我们给出了多准则决策方法——层次分析法对四种疗法的价格和疗效进行了定量的综合评价。得出对于不发达国家和地区,疗法一优于其余三种方法。运用疗法一的模型四(同时参考人民网、搜狐网、安徽新闻网等多家权威网站的消息的只要CD4细胞计数能够维持在350/ul就不应该停用药这一原则),用计算机模拟出用疗法一的最佳终止此疗法时间是在三十四周左右。 
 
 
 
关键词 
SPSS11.5  非线性曲线拟合  线性插值   层次分析法   非参数检验 
 
 
 
 
 
一 问题重述 
1、        背景 
本题目来源于世界人们都很关注的艾滋病的治疗问题。艾滋病的医学全名为“获得性免疫缺损综合症”,英文简称AIDS,它是由艾滋病毒(医学全名为“人体免疫缺损病毒”, 英文简称HIV)引起的。艾滋病是当前人类社会最严重的瘟疫之一,从1981年发现以来的20多年间,它已经吞噬了近3000万人的生命。 
医学入选标准临床主要依靠体格检查和病史,实验室标准(CD4<200/mm3),则主要依靠CD4细胞计数,如果无法进行CD4检测,也可检测总淋巴细胞计数(TCL<1200/mm3)。CD4细胞计数优于总淋巴细胞计数,如果条件允许应尽可能采用CD4细胞计数。 
人类免疫系统的CD4细胞在抵御HIV的入侵中起着重要作用,当CD4被HIV感染而裂解时,其数量会急剧减少,HIV将迅速增加,导致AIDS发作。艾滋病治疗的目的,是尽量减少人体内HIV的数量,同时产生更多的CD4,至少要有效地降低CD4减少的速度,以提高人体免疫能力。 
然而,迄今为止,只有几种公认的能够抑制和延缓其病程的药外,尚无治愈艾滋病的特效药物。目前的一些AIDS疗法不仅对人体有副作用,而且成本也很高。许多国家和医疗组织都在积极试验、寻找更好的AIDS疗法。 
2、问题 
现有美国艾滋病医疗试验机构ACTG公布的两组数据。第一组数据是300多名病人同时服用zidovudine(齐多夫定),lamivudine(拉美夫定)和indinavir(茚地那韦)每隔几周测试的CD4细胞计数和HIV浓度(每 血液里的数量);第二组是是将1300多名病人随机地分为4组,每组按下述4种疗法中的一种服药,大约每隔8周测试的CD4浓度(具体数据见附件1和附件2;数据缺HIV浓度,它的测试成本很高)。4种疗法的日用药分别为:600mg zidovudine或400mg didanosine(去羟基苷),这两种药按月轮换使用;600 mg zidovudine加2.25 mg zalcitabine(扎西他滨);600 mg zidovudine加400 mg didanosine;600 mg zidovudine加400 mg didanosine,再加400 mg nevirapine(奈韦拉平)。 
现需解决以下三个问题: 
(1)、利用附件1的数据,预测继续治疗的效果,或者确定最佳治疗终止时间。 
(2)、利用附件2的数据,评价4种疗法的优劣(仅以CD4为标准),并对较优的疗法预测继续治疗的效果,或者确定最佳治疗终止时间。 
(3)、如果病人需要考虑4种疗法的费用,对(2)中的评价和预测(或者提前终止)有什么改变?(艾滋病药品的主要供给商对不发达国家提供的药品价格如下:600mg zidovudine 1.60美元,400mg didanosine 0.85美元,2.25 mg zalcitabine 1.85美元,400 mg nevirapine 1.20美元) 
 
二 基本假设 
通过对该问题的分析,我们认为,题目给出的部分数据是不具备参考价值的。由于检测的时间比较长,经过统计,大部分被调查者都可以做四到五次检测,而题目给出的数据有很多被调查者只做了一次检测,还有一部分缺省值,在此我们考虑可以将这一部分数据剔除,而不会影响总的结果。对此,我们做出如下一些合理的假设: 
1、        假设所有的数据都是可靠的,不包括人为造成的不合理因素。 
2、        假设数据中的奇异数据和缺省值忽略后对总体信息不会有显著的影响。 
3、        假设在两次相邻的测试时间段内,病人血液中CD4和HIV的含量是均匀变化的。 
4、        假设在问题二中我们认为随机分成的四组被调查者的CD4细胞计数的四组数据样本是分别独立的。 
三 参数设置 
为了叙述的方便,我们把题目中所用的变量用下列参数来代替: 
 :问题一中的CD4细胞计数;(个/ul) 
 :问题一中的HIV浓度:(单位不详) 
 :问题一中的周次数: 
 :问题二中的按疗法一治疗的患者的CD4细胞计数;(个/ul) 
 :问题二中的按疗法二治疗的患者的CD4细胞计数;(个/ul) 
 :问题二中的按疗法三治疗的患者的CD4细胞计数;(个/ul) 
 :问题二中的按疗法四治疗的患者的CD4细胞计数;(个/ul) 
四 问题分析 
1、        问题1的分析 
我们仔细研究过附件一的数据之后,发现在三百多名被检测者近一年的检测数据中,由于是抽样检测的数据,存在不连续的特点,且从周次的角度来看,检测的次数过少,不适合做进一步的预测,于是用线性插值拟合,来均匀的模拟出每个被调查者每周身体中CD4细胞计数和HIV的浓度(具体的数据见附件excel表),在此我们假设被调查者体中CD4和HIV的浓度是均匀变化的,在对所有被调查者的CD4和HIV每周的含量求平均值。另外,由于某些客观原因使得部分数据失真或没有统计的信息价值,如存在-2、-1周的数据、某些被调查者只有一次检验数据等,我们统计了将近5%的无信息价值的数据,在此我们决定舍去这些数据。最后,用VC++做线性拟合(具体程序见附录),将差值补起。然后计算出每周的所有的被调查者的CD4和HIV的浓度的平均值,这样我们可以得到一个关于该疗法的从时间序列角度来说较为完全的数据。最后,做出均值散点图,用SPSS做出最优的模型模拟曲线,得出该疗法对人体CD4细胞计数影响近似三次曲线,而对人体HIV的浓度影响可以综合利用S曲线和三次曲线较好的模拟。 
2、        问题二的分析 
问题二是针对1300多名被调查者随机分四组分别服用不同药物组合的四十周跟随检测疗效。经过研究附件二的数据,考虑到给出的数据是比较散乱的,沿用问题一的思想,我们认为该数据同样存在不连续,且从检测次数的角度来说,数据的完备性不足,不宜预测。为此,我们用同样的方法作数据处理,用线性插值填充从第零周到最后一周的数据,同样在这里我们假设在治疗期间的变化是均匀的。这样我们就能得到四种疗法的每周的时间序列数据,从而计算出所有被调查者每周的平均值,用SPSS经过多次模拟,拟合出较优的针对每种疗法的模型,即可用此模型分别预测每种疗法继续使用的疗效。由于这些数据是在随机分组的人群中获得的,所以我们假设这些数据样本是独立的,这样我们就可以采用统计学中的多个独立样本的非参数检验法,对这四个数据样本进行比较,在此我们利用SPSS11.5软件中的多个独立样本比较秩和检验功能完成,具体包括中位数检验法和Kruskal-Wallis H Test,并在统计学意义上给出每种疗法的相对疗效大小分析。同时我们根据附件二的数据也给出了有关不同年龄段与疗法及治疗时间的可能关系。 
3、        问题三的分析 
问题三是在问题二的基础上,进一步考虑到不发达国家一些患者要考虑治疗费用问题,这样除了要考虑艾滋病本身的医学指标(CD4细胞计数)外,还要考虑费用问题,即主要有CD4细胞计数和费用这两个因素影响四种疗法疗效的综合评价问题。在此我们用到了美国运筹学家T. L. Saaty 教授于70年代初期提出的一种简便、灵活而又实用的多准则决策方法------层次分析法(Analytic Hierarchy Process,简称AHP)。 
目标层是针对不发达国家的最佳治疗方案,准则层包含了CD4细胞计数和费用含量两个元素,在决策层将4种治疗方法作为4个元素来考虑。这样便建立了递阶层次结构,然后建立判断矩阵进行分析,得到针对不发达国家的最优治疗方案。 
五 模型的构建与求解 
 
1、        数据线性插值模型 
    将原355名患者的CD4计数和HIV浓度数据中的奇异数据和缺升值剔除后,按顺序从1到 重新编号为  
(1)  参数假设 
     :剔除缺升值和奇异数据之后患者的人数; 
 : 第 名患者     ( ); 
 :第 名患者最后一次检测的周次; 
 :第 名患者检测的总次数;  
 :第 名患者第 次检测时CD4的细胞计数 ; 
 :第 名患者第 次检测的周次;  
 :第 名患者第 周的插值数据(CD4细胞计数);  
(2)  线性插值模型建立 
我们假设第 周位于第 次与第 次间,建立线性插值模型如下: 
   模型一:    ,  
2、        问题一模型的构建 
(1)、通过前述分析思路,先计算出每周所有被检测者的CD4和HIV的平均含量(见附录excel表),在用SPSS模拟CD4细胞计数变化的最优拟合曲线的方程为: 
     摸型二:  
我们用SPSS模拟的曲线拟合图,从直观上和统计检验指标上,可以看出拟合及预测的效果较为理想。 
  
 
 
检验统计量指标如下: 
拟合优度:  R=0.88317 
标准误: Standard Error=11.17114 
F检验值 :=63.81568       
显著性水平:Signif F = 0.0000<<0.05 
可见在95%的显著性水平下,我们认为模型是可靠的。 
(2)、构建出HIV的浓度变化的方程分段模型为: 
模型三 :    
 (在此我们考虑用分段函数是为了能够对原始数据由更好的模拟,同时考虑实际情况,在长期服用以后人体都会对药物产生免疫作用。目前世界上还没有一种药在长期中能够很好的抑制艾滋病患者体内的cd4浓度的降低。) 
同样我们在SPSS环境下做出了曲线与原始值的模拟图: 
  
以及分段模型一检验统计量指标如下: 
拟合优度:=0.8186 
标准误:Standard Error=0.25369 
F检验值:=  28.34473       
显著性水平:Signif F = 0 .0000<<0.05 
分段模型二检验统计量指标如下:  
拟合优度:=0.53216 
标准误:Standard Error=0.10492 
F检验值:= 17.44267 
显著性水平:Signif F =0.001<<0.05 
可见在95%的置信水平下,我们接收原假设,模型的拟合效果很好。 
结论:通过两种指标含量的模型可以很容易的预测该种疗法在继续治疗的效果,即只需带入相应的时间值(以周为单位),利用模型就可以求解。同时通过图形我们可以很明显看出,大约在第二十七周左右CD4细胞计数出现了一个曲线峰值,即CD4细胞计数在第二十七周以后出现了明显的滑坡,从图形可以理解为,该疗法在第二十七周以后在人体的作用开始大幅减弱,可以认为应该停止用药。同时观察HIV的浓度变化也可以认为支持了这一观点,即此时HIV浓度几乎达到最低点。同时根据在现行医疗行业的经验,大都是以CD4细胞计数来预测艾滋病的病况,在此我们也遵循这一原则,认为在这种问题上以观察CD4细胞计数为准,同时兼顾HIV和艾滋病的药价成本问题,我们认为在第二十七周左右应该停止用药。 
3、        问题二模型的构建 
(1)沿用前述分析思路,先计算出每周的所有被检测者的CD4平均含量含量(见附录excel表),用SPSS模拟的按疗法一治疗的患者体内CD4细胞计数的变化的最优曲线的方程为: 
模型四:  
以及我们用SPSS模拟的曲线拟合图,从直观上和统计检验指标上,可以看出拟合及预测的效果很好。 
  
疗法一模型检验统计量指标如下:  
拟合优度:=0.992447 
标准误:Standard Error=0.04724 
F检验值:= 217.19730 
显著性水平:Signif F =0.000<<0.05 
可见在95%的显著性水平下,我们认为模型是可靠的。 
解模型四在有效区间内的最优值是在X大约为二十六周时出现的,所以我们预测服用疗法一的患者,最好在二十六周左右,停止服用该种药物组合。 
(2)重复上叙操作过程,先计算出每周的所有被检测者的CD4平均含量(见附录excel表),在用SPSS模拟的按疗法二治疗的患者体内CD4细胞计数的变化的最优曲线的方程为: 
模型五:     
以及我们用SPSS模拟的曲线拟合图,从直观上和统计检验指标上,可以看出拟合以及预测的效果很好。 
 
  
疗法二模型检验统计量指标如下:  
拟合优度:= 0.97781 
标准误:Standard Error=  0.02376 
F检验值:= 588.46970   
显著性水平:Signif F =0.000<<0.05 
可见在95%的置信水平下,通过上统计量的数值可以得出,我们接收原假设。 
(3)重复上叙操作过程,先计算出每周的所有被检测者的CD4平均含量(见附录excel表),在用SPSS模拟按疗法三治疗的患者体内CD4细胞计数的变化的最优曲线的方程为: 
模型六:  
  以及我们用SPSS模拟的曲线拟合图,从直观上和统计检验指标上,可以看出拟合以及预测的效果。 
  
疗法三模型统计检验量如下:  
拟合优度:= 0.81013 
标准误:Standard Error= 0.06047 
F检验值:= 23.55132    
显著性水平:Signif F =0.000<<0.05 
可见在95%的置信水平下,通过上统计量的数值可以得出,我们接收原假设。 
解模型七在有效区间内的最优质是在X大约为十九周时出现的,所以我们预测服用疗法三的患者,最好在十九周左右,停止服用该种药物组合。 
 
(4)重复上叙操作过程,先计算出每周的所有被检测者的CD4平均含量含量(见附录),在用SPSS模拟的按疗法四治疗的患者体内CD4细胞计数的变化的最优拟合曲线的方程为: 
模型七:    
以及我们用SPSS模拟的曲线拟合图,从直观上和统计检验指标上,可以看出拟合以及预测的效果很好: 
  
疗法四模型检验统计量指标如下:  
拟合优度:= 0.98713 
标准误:Standard Error=0.01996 
F检验值:= 469.99144    
显著性水平:Signif F =0.000<<0.05 
可见在95%的置信水平下,通过上统计量的数值可以得出,我们接收原假设。 
解模型八在有效区间内的最优质是在X大约为二十五周时出现的,所以我们预测服用疗法四的患者,最好在二十五周左右,停止服用该种药物组合。 
总结以上四种疗效的预测模型,都能用三次曲线有比较好的模拟,我们从图形上可以看出很明显的趋势,即在服用四种药物组合的在用药之初,效果都比较好,尤其是使用第三、第四种药物组合。而在长期效果都不是特别好。但我们也注意到用第三、四种疗法在接近四十周以后CD4细胞计数有一个较为明显的上升趋势尤为特别,在仔细合对原始数据后我们发现确实存在这种规律,对此我们暂且认为第三、四种疗法在长期服用后仍然有一定效果。 
(5)四种疗法疗效的综合比较 
在前述工作中我们已经得出每种疗法的从0到40周的所有患者CD4细胞计数的平均值,由于这些数据是在随机分组的人群中获得的,所以我们假设这些数据样本是独立的,这样我们就可以采用统计学中的多个独立样本的非参数检验法,对这四个数据样本进行比较,我们利用SPSS11.5软件中的自带的多个独立样本比较秩和检验功能完成。具体包括中位数检验法和Kruskal-Wallis H Test。 
 
中位数检验法 
表一:不同疗法的中位数检验效果 
        疗法 
        疗法1        疗法2        疗法3        疗法4 
CD4        > Median        5        12        31        34 
        <= Median        36        29        10        7 
 
由统计结果的频数表一很明显可以看出,疗法一的小于中位数的个数有36个大于中位数的个数只有5个,疗法四的小于中位数的只有7个,而大于中位数的数有34个,可见,疗法四的效果较好。从表中还可大致看出方法一到四,疗效渐佳。 
表二:检验统计量指标         
        CD4 
N        164 
Median        2.960295 
Chi-Square        59.024(a) 
df        3 
Asymp. Sig.        .000 
a  0 cells (.0%) have expected frequencies less than 5. The minimum expected cell frequency is 20.5. 
b  Grouping Variable: METHOD 
由表二的Chi-Square检验统计量的值等,可见在95%的置信水平下,我们认为四种疗法疗效有显著的差异。 
Kruskal-Wallis H Test 
表三:不同疗法的Kruskal-Wallis H Test效果 
        METHOD        N        Mean Rank 
CD4        1        41        41.80 
        2        41        57.10 
        3        41        105.73 
        4        41        125.37 
        Total        164        —— 
   由表三的平均秩水平可见,疗法一到四疗效越来越好,差距很明显。与中位数检验得出了统一的结论。 
表四:检验统计量指标 
        CD4 
Chi-Square        85.065 
df        3 
Asymp. Sig.        0.000 
a  Kruskal Wallis Test 
b  Grouping Variable: METHOD 
    由表四的Chi-Square值等,在显著性水平为95%下,我们能够认为四种疗法存在很明显的差异。 
综上所述,在仅以CD4细胞计数为标准下,该四种疗法的疗效为:疗法四最好,疗法三次之,疗法二较差,疗法一最差。且四种疗法短期服用效果都较好,长期服用效果都将下降,但三、四疗法稍好一些。 
(6)、不同年龄段的最优疗法 
附件2给出了不同年龄段患者在使用了不同疗法之后体内的CD4细胞计数,因此,我们猜想在不同的年龄段内,最佳治疗方法可能有所不同。于是我们对年龄进行分组,以求在不同的年龄段,找出该年龄段的最佳治疗方法。我们参考以往的艾滋病的年龄分布统计资料、ACTG公布的数据整体概况及人自身的生理特点,将数据按年龄分为三段:25岁及以前、25岁至40岁、40岁以上。在按疗法将这些数据分为四组,统计出所有被调查者在每个被检测时刻的平均CD4细胞计数(共计六次数据)。同样,由于这些数据是在随机分组的人群中获得的,所以我们假设这些数据样本是独立的,我们依旧可以采用多个独立样本的非参数检验法,主要用Kruskal-Wallis H Test和中位数检验法检验对这些数据样本进行比较。比较结果如下: 
(1)第一年龄段(25岁及以前) 
                    Kruskal-Wallis H Test检验 
表六:四种疗法对第一年龄段患者的疗效 
        第一年龄段(<25)        个数        平均秩 
CD4均值        1        6        16.83 
        2        6        4.33 
        3        6        14.00 
        4        6        14.83 
        Total        24        —— 
表七:检验统计量水平 
        CD4均值 
Chi-Square        11.180 
df        3 
Asymp. Sig.        0.011 
a  Kruskal Wallis Test 
b  Grouping Variable: 第一年龄段 
通过表六、表七Kruskal Wallis Test数据可以看出,显著性水平=0.011<0.05,即可认为在四种疗法种存在显著差异,有平均秩得知,对第一年龄段的患者最好的疗法是第一种,即第一种药物组合适合青少年患者。 
                        中位数检验法 
表八:四种疗法对第一年龄段患者的疗效 
        第一年龄段 
        1        2        3        4 
CD4均值        > Median        5        0        3        4 
        <= Median        1        6        3        2 
表九:检验统计量水平         
        CD4均值 
N        24 
Median        2.582567 
Chi-Square        9.333(a) 
df        3 
Asymp. Sig.        0.025 
a  8 cells (100.0%) have expected frequencies less than 5. The minimum expected cell frequency is 3.0. 
b  Grouping Variable: 第一年龄段 
通过表八表九中位数检验法的数据可以看出,显著性水平=0.025<0.05,即可认为在四种疗法种存在显著差异,有大于中位数的个数得知,对第一年龄段的患者最好的疗法时第一种,即第一种药物组合适合青少年患者。检测结果与Kruskal Wallis Test一致。 
(2)第二年龄段(25至40岁) 
                          Kruskal Wallis Test 
表十:四种疗法对第二年龄段患者的疗效 
        第二年龄段        个数        平均秩 
CD4均值        1        6        8.33 
        2        6        9.67 
        3        6        17.50 
        4        6        14.50 
        Total        24        —— 
表十一:检验统计量水平 
        CD4均值 
df        3 
Asymp. Sig.        0.089 
        —— 
a  Kruskal Wallis Test 
b  Grouping Variable: 第二年龄段 
通过表十、表十一Kruskal Wallis Test数据可以看出,显著性水平稍大于0.05,即也可认为在四种疗法种存在差异,由平均秩得知,对第二年龄段的患者最好的疗法是第三种,即第三种药物组合适合中年患者。 
 (3)第三年龄段(40岁以上) 
Kruskal Wallis Test 
表十二:四种疗法对第三年龄段患者的疗效 
        第三年龄段        个数        平均秩 
CD4均值        1        6        4.50 
        2        6        14.00 
        3        6        11.83 
        4        6        19.67 
        Total        24        —— 
表十三:检验统计量水平         
        CD4均值 
Chi-Square        14.167 
df        3 
Asymp. Sig.        0.003 
a  Kruskal Wallis Test 
b  Grouping Variable: 第三年龄段 
 
通过表十二、表十三Kruskal Wallis Test数据可以看出,显著性水平=0.003<0.05,即可认为在四种疗法种存在显著差异,由平均秩得知,对第三年龄段的患者最好的疗法是第四种,即第四种药物组合适合老年患者。 
 
 
中位数检验法 
 
表十四:四种疗法对第三年龄段患者疗效 
                第三年龄段 
                1        2        3        4 
CD4均值        > Median        0        4        3        5 
        <= Median        6        2        3        1 
 
表十五:检验统计量水平 
        CD4均值 
N        24 
Median        3.004913 
Chi-Square        9.333(a) 
df        3 
Asymp. Sig.        0.025 
a  8 cells (100.0%) have expected frequencies less than 5. The minimum expected cell frequency is 3.0. 
b  Grouping Variable: 第三年龄段 
 
通过中位数检验法的数据可以看出,显著性水平=0.025<0.05,即可认为四种疗法存在显著差异,由大于中位数的个数得知,对第三年龄段的患者最好的疗法是第四种,即第四种药物组合适合老年患者。检测结果与Kruskal Wallis Test一致。 
 
 
总结:用Kruskal-Wallis H Test和中位数检验我们都能得出,针对第一年龄段的即青少年患者较适宜采用第一种疗法:针对第二年龄段中年患者第三种疗法较适合;而第三年龄段老年患者用第四种疗法最好。 
 
 
4、问题三模型的建立与求解 
问题三是在问题二的基础上,进一步考虑到实际中如果病人要考虑治疗费用尤其是这些药主要是针对不发达国家的患者,这样除了要考虑艾滋病本身的医学指标(CD4)外,还要考虑费用问题,即主要有CD4和费用这两个因素影响四种疗法疗效的综合评价问题。在此我们用到了多准则决策方法------层次分析法。目标层是针对不发达国家的最佳治疗方案,准则层包含了CD4和费用含量两个元素,在决策层将4种治疗方法作为4个元素来考虑。这样便建立了递阶层次结构,然后建立判断矩阵进行分析,得到针对不发达国家的最优治疗方案。具体过程如下: 
 
 
 
 
 
 
 
1)根据已知数据和第二题给出的数据,我们建立如下的层次结构模型。 
目标层            
 
 
 
 
准则层                            
    
 
 
 
 
方案层  
 
 
2)  根据以上层次结构模型和不发达国家的具体经济情况以及各种药物的疗效,我们给出如下判断矩阵:(考虑到主要是针对不发达国家患者,参考现实常用的经验,故可以认为费用相对疗效更为重要一些,这里我们取 =7,  =6)   
表十六:准则层对目标层的判断矩阵 
  
   
  
准则层权值 
  
  
  
0.53846 
  
  
  
0.46154 
由于矩阵为二阶的,所以不必考虑一致性检验,而认为判断矩阵的一致性是可以接受的。 
表十七:方案层对准则层 的判断矩阵 
  
  
  
  
  
方案层权值 
  
  
  
  
  
  
 
  
  
  
  
  
  
 
  
  
  
  
  
  
 
  
  
  
  
  
  
 
 
 
 
 
 
 
 
表十八:方案层对准则层 的判断矩阵 
  
  
  
  
  
方案层权值 
  
  
  
  
  
  
 
  
  
  
  
  
  
 
  
  
  
  
  
  
 
  
  
  
  
  
  
 
(在此我们利用问题二表三中的四种疗法的Mean Rank值做标准化,用标准化后的值作为权重计算各种疗法对疗效的影响系数,再算出准则层权值) 
3) 层次单排序及一致性检验 
由于准则层对目标层的判断矩阵是二阶的,所以我们这里只对方案层对准则层的判断矩阵进行一致性检验。 
通过Matlab很容易可以求得方案层 对准则层 两个矩阵的最大特征值分别为:  ,    
 计算一致性指标: 
                           
                    
所以一致性比例   , 所以认为判矩阵的一致性是可以接受的。 
4)层次总排序及一致性检验 
现求 层中各因素关于总目标的权重,即求 层各因素的层次总排序权重 ,计算如下: 
 
表十九:总排序权值 
准则        费用        疗效        总排序权值 
准则层权值        0.53846        0.46154         
方案层 
单排序 
权值        疗法1          
0.126667        0.304256 
        疗法2          
0.173030        0.167135 
        疗法3        0.228084        0.320394        0.270689 
        疗法4          
0.379909        0.257836 
 
由表十九的总排序权值我们可以看出在考虑价格因素后,疗法一对治疗艾滋病的选择尤其是在面对不发达国家患者时是最好的选择。这可能是和疗法一的药品价格相对其他三种疗法非常便宜,在层次分析法中对疗法的选择占有很大的权重,非常适合不发达国家的市场。方法四在不考虑价格时是最有疗效的,但由于其价格昂贵,是不发达国家面对治疗艾滋病的药品选择时很不利。运用疗法一的模型四(参考人民网、搜狐网、安徽新闻网等多家权威网站的消息的只要CD4细胞计数能够维持在350/ul就不应该停用药这一原则),用计算机模拟出用疗法一的最佳终止此疗法时间是在三十四周左右。 
 
 
六 模型的评价 
在解决问题一时我们花了很多的时间在数据的处理上,为了能够使样本数量足够多,以模拟出比较适合的模型,我们首先假设患者在服药后的每一个调查期内体内的CD4细胞计数和HIV浓度是均匀变化的,这样我们利用线性插值法还原出整个调查期内每周的数据。具体的做法是:利用本期的数据减去上一期的数据在除以这两期之间的周数,用计算出的值往前一期的数据上加,每周加一次,一直加到本期的周数。这样就还原出每一周的值。在此我们用C++完成此项任务。在这个过程中我们发现有许多的异常值,在此我们也在理性的基础上给出选择性舍弃,最后才得出较为合理的模拟效果。同时,检测到CD4计数和HIV有很强的相关性,也是比较合乎常理的,但在模拟这二者的曲线中,我们发现长期后二者出现了背离,模型也不能给出很好的解释,这还需要我们做进一步的分析研究。而且该模型在预测CD4和HIV浓度的变化时是在短期内较为有效,在长期内我们认为模型不能够起到很完美的作用,可能会起到一定的参考作用。 
在问题二中,我们在处理数据时采用了与问题一相同的方法。在模拟每一种疗法的疗效时,我们都得到了三次曲线,这与模型一的结果存在较好的统一性,可认为是模型较为理想的一面。另外,每一种方法几乎都得到了长期服用同一种药后药效将有很大的下降的结论,这也是与我们的实际情况相符的,也是合理的因素。在比较四种疗法的疗效大小时我们采用了秩和检验,这在我们不知道总体样本的分布时是一种很好的检验手段,但此法也有其局限性,主要是它在比较大小时,只考虑相对值,而没有绝对量的统计,这样我们只能比较相对大小,而不能比较绝对大小,这为我们在处理问题三的层次分析法时的疗法对疗效权重的确定造成了困难。因此,在处理问题三时,我们对此作了标准化处理,以代替没有绝对量的不足。在处理年龄与治疗效果的关系上,为了计算的方便我们将年龄进行分组,在分组的问题上我们主要参考现行的在医学行业的主要分组处理标准,难免会有不足之处,有待于深究。 
问题三是在问题二的基础上,进一步考虑到实际中如果病人要考虑治疗费用,这样要评价四种疗法的优劣,除了要考虑艾滋病本身的医学指标(CD4细胞计数)外,还要考虑费用问题,而费用问题主观性较大,不宜采取量化标准,因此我们用到了层次分析法对人们的思维过程进行了加工整理,提出了一套系统分析问题的方法,以较为合理的方式,增加了客观性减少了主观性。但层次分析法也有其局限性,主要表现在:(i)它在很大程度上依赖于人们的经验,主观因素的影响很大,它至多只能排除思维过程中的严重非一致性,却无法排除决策者个人可能存在的严重片面性。(ii)比较、判断过程较为粗糙,不能用于精度要求较高的决策问题。AHP至多只能算是一种半定量(或定性与定量结合)的方法。若是需要更好的精度,此模型还有待于进一步的完善。可以更进一步考虑不发达国家的消费水平,以及从宏观上建立一个社会总效用函数等,考虑更多的变量,在微观上从行为学的角度考察艾滋病患者的具体情况以及地域差异等。从医疗总效果来看,单单考虑几个因素是不够的。 
在运用疗法一的模型四,用计算机模拟出用疗法一的最佳终止此疗法时间是在三十四周左右时,我们是在搜索了人民网、搜狐网、安徽新闻网等多家权威网站的消息之后,确定的只要CD4细胞计数能够维持在350/ul就不应该停用药这一原则,从而预测出疗法一的最佳终止治疗时间的。在这里我们引用了这一最新的准则,存在一定的风险性,可能会对估计值产生一定的偏差,但基于这是权威网站的消息,也有一定的可信度。这也为我们前叙的模型的验证提供了一种途径。 
 
 
 
 
七 参考文献 
[1]许国祥    统计预测与决策            上海财经大学        2005年 
[2]谭浩强     C程序设计                  清华大学出版社       1999年 
[3]黄良文     统计学原理                  中国统计出版社       1999年 
[4]王振龙     时间序列分析                中国统计出版社       1999年 
[5]薛微       统计分析与SPSS的应用       中国人民大学出版社   2005年 
[6]李志辉 罗平 SPSS统计分析教程           电子工业出版社       2004年 
[7]周怀悟      医药应用数理统计            山东教育出版社       1986年 
[8]张尧庭      定性资料的统计分析          广西师范大学出版社   1991年 
[9]            MATLAB 7 基础与提高         飞思科技产品研发中心2005年 
 
八 附录 
 
程序 一:线性插值 
#include <cstdlib> 
#include <iostream> 
#include <fstream> 
#include <iomanip> 
#include "data.h" 
 
using namespace std; 
 
part::part() 
{ 
    length=0; 
    for(int i=0;i<MAXLENGTH;i++) 
        week[i]=false; 
} 
 
void part::clear(int range) 
{ 
    length=0; 
    if(range==0) 
        range=MAXLENGTH; 
    for(int i=0;i<=range;i++) 
        week[i]=false;     
} 
 
int part::getLength() 
{ 
    return length; 
} 
 
bool part::add(int w,double d,bool Ex) 
{ 
    if(Ex) 
    { 
        if(w<=length) 
        { 
            compute(); 
            print(); 
            clear(length); 
        } 
    }     
    week[w]=true; 
    data[w]=d; 
    length=w; 
} 
 
void part::compute() 
{ 
    int i=length-1; 
    double distance; 
    int big=length,small; 
    //if(i=-1) 
    //    return; 
    while(i>=0) 
    { 
        small=i; 
        if(week[small]) 
        { 
            distance=(data[big]-data[small])/(double)(big-small); 
            for(int j=big-1;j>small;j--) 
            { 
                data[j]=data[big]-(big-j)*distance; 
                week[j]=true; 
            } 
            big=small; 
        } 
        i--; 
    }     
} 
 
void part::print() 
{ 
    for(int i=0;i<=length;i++) 
        if(week[i]) 
            cout<<left<<setw(2)<<i<<"    "<<setw(5)<<data[i]<<endl;     
} 
 
//void part::disp(ofstream& f) 
//{} 
#include <cstdlib> 
#include <iostream> 
#include <fstream.h> 
#include "data.h" 
 
using namespace std; 
    
int main(int argc, char *argv[]) 
{ 
    part ppp; 
    int a; 
    double b; 
    if(argc<2) 
        exit(0); 
    ifstream f(argv[1]); 
    while(!f.eof()) 
    { 
        f>>a>>b; 
        ppp.add(a,b,true); 
    } 
    ppp.add(0,0,true); 
    f.close(); 
    //system("PAUSE"); 
    return EXIT_SUCCESS; 
} 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
该论文建立了总体回归模型,借助计算机强大的计算和模拟功能,对题设中给出的几种艾滋病疗法进行评价及疗效的预测。特别注意到了题目中给出的抽样检测数据存在不连续的特点,且从周次的角度来看,检测的次数过少,不适合做进一步的预测,于是采用了线性插值拟合,来均匀的模拟出每个被调查者每周身体中CD4细胞计数和HIV的浓度(并注意剔除了一些奇异数据),然后对所有的被调查者每周的CD4细胞计数和HIV浓度求平均值,这样可以得到一个关于该疗法的从时间序列角度来说较为完全的数据。用这些数据借助计算机强大的拟合功能,得到疗法对人体CD4细胞计数和HIV浓度影响的曲线,进而预测出治疗效果,确定最佳治疗终止时间。问题二中先将数据按照治疗方法进行分类,每一种治疗方法下数据的处理沿用问题一的处理方法,首先建立各治疗方法对CD4细胞计数影响的模型,之后采用统计学中的多个独立样本的非参数检验法,利用SPSS11.5软件中的多个独立样本比较秩和检验功能完成疗效的比较工作,进而确定出最佳治疗终止时间。问题三是在问题二的基础上,进一步考虑到不发达国家一些患者要考虑治疗费用问题,这样除了要考虑艾滋病本身的医学指标(CD4细胞计数)外,还要考虑费用问题,本文利用了层次分析法对四种疗法的价格和疗效进行了定量的综合评价。最后考虑到年龄对治疗效果的影响,本文将年龄分为三段来分别寻求不同年龄段的最佳治疗方法,使得模型更具有使用价值。 
总之,该论文无论对数据的处理方法,还是数学模型的建立都是完美的。 |   
 
 
 
 |