有关缺失数据处理在试验设计中的应用毕业论文写作资料-论文写作网

简介:关于本文可作为缺失数据方面的大学硕士与本科毕业论文缺失数据论文开题报告范文和职称论文论文写作参考文献下载。

缺失数据论文范文

缺失数据处理方法:1.4 数据清洗—缺失数据处理

摘要：数据缺失在社会经济研究、抽样调查、生物医药研究等诸多领域普遍存在,因而缺失数据的处理一直是国际统计学界热点讨论的课题之一.本文以哮喘临床试验为例构建缺失模型对缺失数据进行处理.通过介绍三种缺失机制,根据哮喘临床试验中真实情况模拟产生数据,在此基础上构建MAR模型,借助WinBUGS和R软件通过贝叶斯方法对模型中的参数进行估计.结果表明,在哮喘临床试验中基于缺失模型的方法对结论的敏感性分析效果显著.

Abstract:Missingdataisamainprobleminmanyfieldssuchassocio-economicresearch,samplesurveysandthefieldofbiomedicalresearchandmanyothercommon.Therefore,copingwithmissingdatahasbeenanincreasingimportantissueinthediscussionofinternationalstatistic.Inthispaper,webuiltamodelforcopingwiththemissingdatafromaasthmaclinicaltrials.Weintroducedthreekindsofmissingmechani论文范文stoanalyzethecharacterofmissingdataindifferentmissingmechani论文范文.ThedatainthispaperweregeneratedfromrealsituationsimulationwithR,basedonwhichMARmodelwerebuilt.Theresultsshowthat,inasthmaclinicaltrials,themethodweusei论文范文orepreferabletoassessthesensitivityoftheconclusions.

关键词：缺失数据；缺失模型；WinBUGS；临床试验

Keywords:missingdata；missingmodle；WinBUGS；clinicaltrial

中图分类号：C81文献标识码：A文章编号：1006-4311（2015）31-0187-03

0引言

数据挖掘在社会经济研究、抽样调查、生物医药研究等诸多领域得到广泛应用,然而数据缺失现象也相伴而生.数据的缺失不仅影响了数据的质量,也可能造成统计分析结果的严重偏差.因此,对缺失数据的合理处理是一个非常重要的问题,是数据预处理的重要环节,也是提高数据质量、预测模型准确率和降低估计误差的重要方法之一.

在新药临床试验设计中,经常会由于试验设计不合适或者在试验进行中出现故障等原因造成部分试验数据未被记录到,即会出现数据缺失的现象.一般而言,对于缺失的数据通常的解决方法是调整系统并重新进行试验以便将缺失的数据补齐.但在实际中,由于试验周期要求、试验成本的限制、试验对象的唯一性或者无法进行重新的补充调查等原因使得试验不可重复.因此通过已有数据所提供的信息,科学地处理缺失数据对临床试验设计具有重要意义.

1.变量说明及数据缺失机制

1.1数据及变量说明

本文设计五组哮喘临床试验来评估布地奈德（budesonide）的有效性和安全性.五组分别为安慰机组以及分别注入200mcg、400mcg、800mcg和1600mcg的布地奈德的治疗组.将有患有慢性哮喘的446名的病人,按照随机双盲多中心平行试验的方法进行设计,对患者12周的情况进行记录.考虑到数据的保密性,本文所采用的数据根据哮喘临床试验真实背景模拟产生.对于布地奈德的疗效评估,通常用下面两个变量来衡量：即1秒钟呼出的气体的容积FEV1和呼气峰流速PEF.本文主要用FEV1的变化率评估布地奈德的疗效.对于某一患者,FEV1的重要变化依赖于他（她）的FEV1的预计值.FEV1的预计值可以由一个人的体重、年龄和性别等来估计得出.对哮喘者病情的判断采用就诊时FEV1占预计值的百分比进行.本文将FEV1和基线的比较得到的变化作为FEV1的预计值百分比来看作是响应,记为FEV1占预计值的百分比.

假设有i∈1,等,N个病人随机的进入试验,每个病人在时间tij,j∈1,等,J可以测得其响应,令ti1等于0.第i个个体在时间tij基于基线的主要响应记为yij,因此有yi1等于0,列向量yi等于（yi1,等,yiJ）T记为第i个个体的主要响应的完全集.更进一步,列向量xi记为第i个个体的协变量（辅助变量）,则第i个个体的数据可以用（yi,xi）表示.本文的哮喘试验,yij记为FEV1占预计值百分比的变化量,xi记为由例如年龄、性别、血压和哮喘可逆性程度等读出的基准值.

当存在数据缺失时,定义一个缺失数据指示阵Mij,如果第i个个体的第j个观测值缺失则Mij等于1,否则Mij等于0.同时,本文假设一旦一个个体退出（缺失）则不会再返回,因此向量Mi等于（Mi1,Mi2,等,MiJ）由一些列的0和1组成.一个病人的完全信息可以看作是包括观测部分和未观测部分（缺失部分）,为了区分可观测的和缺失的信息,本文用obs和miss这两个上标来标注.因此一个个体的完全数据（yi,xi）可以写作（yiobs,yimiss,Mi,xi）,其中向量（yiobs,yimiss）的长度是J.

1.2缺失数据机制

假设将参数空间分成两个子集θ和准.令P（y,M；θ,准,x）表示数据的联合似然概率,是在给定的协变量基线下,参数向量的一个特别值.则由对变量的说明有：

对于（3）式,由P（Mi│yiobs,yimiss；准,xi）来刻划缺失机制,有3种缺失机制分别为：完全随机缺失（MCAR)、随机缺失（MAR）和非随机缺失（NMAR）.

2.构建缺失模型（MAR模型）

上述研究表明病人在试验中退出的原因非常重要,如果所有退出病人的响应值都可以通过预测得到,那么就可以在模型中使用这些预测得到的响应值,使缺失数据集成为一个“完全数据集”从而来分析试验结果.本文通过构建缺失模型探研对缺失数据处理.

首先用图表的方法描述缺失机制,如图1所示.

图1描述了在哮喘研究中不同治疗组研究情况,病人参与和未参与下次就诊基于基期FEV预测值百分比变化量均值及其2倍标准差范围变化情况.盲目组初始病人87人、200mcg为90人、400mcg为89人、800和1600mcg为178人,400mcg计量的试验组中,2周时只有2人缺失,由于800mcg与1600mcg出现的情况非常相近,因此将二者结合.图1表示了缺失率随时间变化以及在不同试验组的缺失率.同时退出试验患者的FEV1预测值的百分比高于继续参与下次就诊病人的值,因而说明缺失值不是完全缺失.

2.3模型检验

运用WinBUGS软件来完成此模型检验过程.在初始阶段,从联合分布中抽取样本数为5000的样本,后来在稳定阶段又抽取样本数为10000的样本,结果显示通过稳定性检验,在95％置信水平、滞后50阶条件下计算样本相关系数.得相关系数的伴随概率（0.0001)小于0.05.即通过了稳定性检验.

2.4结果分析

用winbugs软件对参数进行估计,结果见图3.

图3给出了在各种情况下盲目组与200mcg布地奈德实验组得观测数据的均值（合适的地方进行插补）.试验中随着治疗时间的增加,病人退出试验的情况逐渐减少.

从图中我们可以得到如下结论：

①完全数据（包括观测数据和缺失数据）的期望高于全部观测数据的期望,因此说明,试验设计中的缺失数据机制是非完全随机缺失机制.

②在初始阶段,随机缺失模型估计的结果近似于全部观测值结果,而在试验后期阶段,其结果稍低于全部观测值.但是随机模型估计的结果高于最后一次观测值.即如果缺失属于随机缺失,运用最后一次观测值来估计模型结果会出现偏差.

3.结论及不足

在临床试验中,很多患者由于各种原因不能完成全部试验,因此,就需要清楚了解整个试验过程.本文通过构建模型来处理缺失数据的方法与用纵向研究数据的方法相近.基于模型对缺失数据的处理,是一种在不同缺失机制下对缺失结果敏感性估计的较好方法,与采用最后的观测值来预期缺失值的方法相比效果更好些.但考虑到数据的可得性和方法的适用性,本文只考虑了连续型缺失数据的情况,而通过构建模型对缺失数据的填补还可以推广到离散型情况.但在实际中很难选择合适的模型来解决不同缺失机制下缺失数据的问题.当缺失数据与一个弱响应的关系密切时,应当采用本文中提供的模型结构来研究观测值和缺失数据.当要考虑全部信息是就要运用缺失数据信息,即如果模型的响应与缺失数据有关时,应当选择混合模型.

参考文献：

[1]LittleRJA,RubinDB.StatisticalAnalysiswithMissingData[M]·NewYork:WileyandSons,Inc.1987.

[2]NordheimEV.Inferencefromnonrandomlymissingdata:AnexamplefromageneticstudyonTurner’sSyndrome[J]·AmStatistAssoc,1984,79:772-780.

[3]LittleRJAandRubinDB.StatisticalAnalysiswithMissingDate.[M].JohnWileyandSons,2002.孙山泽译.缺失数据统计分析.中国统计出版社,2004:1-15,173-183.

[4]乔丽华,傅德印.缺失数据的多重插补方法[J].统计教育2002,12.

[5]张念先.临床试验常用缺失数据处理方法的局限性分析[J].中国新药与临床杂志,2009,9.

总结：此文是一篇缺失数据论文范文,为你的毕业论文写作提供有价值的参考。

缺失数据处理方法引用文献: