当前位置:论文写作 > 参考文献 > 文章内容

贝叶斯论文写作资料范文 贝叶斯相关论文范文集2万字有关写作资料

主题:贝叶斯 下载地址:论文doc下载 原创作者:原创作者未知 评分:9.0分 更新时间: 2024-03-31

贝叶斯论文范文

《正态模型缺失数据的贝叶斯和Jackknife多重插补法的比较》

本文是贝叶斯方面有关论文写作资料范文和数据相关研究生毕业论文范文.

摘 要:数据缺失是统计调查中经常存在的问题,若是少量缺失则可以利用删除法;若缺失值较多,利用删除法则会丢失大量有用信息,这时候就需利用插补法来补全数据,从而减少对统计分析的影响.根据统计年鉴上近几年的粮食产量、种植规模、有效灌溉面积等系列数据,分别采用贝叶斯多重插值法和刀切多重插值法展开了模拟研究,通过对两种方法所得数据的比对分析,来进一步掌握实际的插值效果.研究发现,利用这两种方法构建的模型都有较好的估计结果,但是贝叶斯多重插补法更为精确,而Jackknife法在操作方面则更为简单.

关键词:贝叶斯多重插补法;Jackknife多重插补法;缺失数据

中图分类号:N37 文献标识码:A

文章编号:1003—6199(2020)02—0119—05

Abstract:Missing data is a common problem in statistical surveys. If there are a few missing,you can use the deletion method. If there are many missing values,the deletion method will lose a lot of useful information. In this case,you need to use the interpolation method to complete the data. Thereby reducing the impact on statistical analysis. This paper simulates the data of grain yield,planting area,effective irrigated area and chemical fertilizer application by using Bayesian multiple imputation method and Jackknife multiple imputation method to compare these two methods in agricultural survey. The study found that the models constructed by these two methods he good estimation results,but the Bayesian multiple interpolation method is more accurate,and the Jackknife method is simpler in operation.

Key words:Bayesian multiple interpolation method;Jackknife multiple interpolation method;missing data

根據实际数据调查结果可知,受技术等多方面要素的限制,往往会出现数据不全面等问题.造成数据缺失的要素来源于多个方面,不同要素造成的数据缺失会引发不同的统计分析偏差.上世纪八十年代,LITTLE与RUBIN结合数据缺失的常见问题以及种类展开了类别探究,对三类缺失数据缺失机制进行了构建.缺失机制包括了完全随机、随机以及非随机三类缺失[1].而对缺失数据的处理方法通常是删除法,即删除含有缺失值的单元数据.2002年,ALLISON表示如果只有少数的缺失值,那么删除法是可行的,并且具有一定的优势[2].然而大规模的数据缺失,直接删去不但不利于信息数据的全面掌握,还会导致原本有用信息的参考价值降低,在这种情况下删除法将不再表现出适用性.面对大量的缺失值更可取的方法是插补法,2002年,LITTLE等人又表示相较于删除法,插补法不仅不会丢失原有的数据信息,还能有效地补充数据信息[3].结合变量存在的关联性展开线性回归模型的有力构建,并基于模型完成对缺失值变量的进一步插补.插补法可以分为单一以及多重插补两类.前者是借助已有的数据进行线性模型参数的预估,随后结合建立完整的模型展开对缺失值的估计.2004年,RUBIN通过研究发现,这类单一插补法会在很大程度上使变量的方差经常被低估,促使整个置信区间狭窄,难以体现确切可信的检验统计量[4].在此基础上,针对这一问题YING和LITTLE对多重插补进行了运用,强调借助多重插补弥补单一插补存在的系列缺陷.多重插补实现了若干个插补值的同时生成,有助于系统数据集的构建.基于数据集进行未知参数的估计[5].受缺失值的影响,整个线性模型参数表现出不确定性[6,7],对此可以利用贝叶斯法和Jackknife法对参数进行随机抽取.贝叶斯法的基本思想简单来说就是从后验分布中随机选取插补模型的参数[8],刀切法的基本思想是从原始完整样本的多个刀切样本中获取插补模型的参数[9].

在对插补法的应用研究中,选取了贝叶斯和Jackknife两类多重插补法展开对比分析,选取近年来部分粮食产量数据和完整的播种面积、有效灌溉面积和施肥量数据进行模拟分析,在两种方法支持下展开缺失值的多重插补,再对最终形成的插补参数进行检验对比.所有的数据分析均使用R语言软件.

1 模型的建立

1.1 模型的假设

设Y和X间具有正态线性关联性,即Y ~ N(Xβ,σ2),变量Y具有一部分数据缺失的情况,且缺失表现出随机缺失特性,Y缺失只取决于X,不受自身所干扰,变量X为完整的数据集合,回归系数β为p维向量.

若目前存在n个观测值,结合是否缺失对Y进行数据部分的划分,其中未缺失部分记为Y1,观测值数量有n1个;缺失部分为Y2,缺失的观测数量为n2个.则变量X也能按照X1和X2进行划分且分别同Y1、Y2对应.

1.2 贝叶斯多重插补法

最后含有缺失数据的变量Y2可以根据以下插补模型产生任意多个插补值:

上式中σ为根据(3)式所确定的后验分布中的任意一个随机抽取,而β为根据(4)式所确定的后验分布中的任意一个随机抽取.即:

需要强调的是,(6)式的h源于χ2(n1 - p)分布的随机抽取,(7)式中的W是p个随机标准正态分布值.

1.3 Jackknife多重插补法

Jackknife多重插補法的核心思想是让插补模型的回归参数来自于Jackknife样本的估计,由于Jackknife样本不唯一,所以根据Jackknife样本估计的参数也不唯一.从观测样本(Y1,X1)中留出一个样本(Yi,Xi),i 等于 1,2,等,n1,剩下的则为Jackknife样本记为(Y (-i),X (-i)),其容量为(n1 - 1),依次操作共能得到n1个不同的Jackknife样本.根据Jackknife样本,模型参数的最小二乘估计为:

1.4 参数估计

(1)插补次数

多重插补法的思想是通过对缺失值的多次插补来弥补估计标准误差的损失,那么需要多少次的插补才能弥补这种损失呢?从理论上来说,插补次数越多估计越准确,如果插补次数趋于无穷大,那么标准误差的估计几乎是完全准确的.因为在运用Jackknife插补法时,Jackknife样本的数量是固定的,因此Jackknife插补法插补次数也保持相对固定的n1次,贝叶斯插补法次数相同,也是n1次.

(2)多重插补法的点估计

假设模型所需的总体参数为θ,则多重插补之后参数的点估计为:

2 模拟分析

影响粮食产量的主要因素有粮食播种面积、有效灌溉面积和化肥施用量[10,11],选取这四个量1978年到2017年的数据,并把粮食产量当作目标缺失变量,删去粮食产量中任意10年的数据,剩下的三个量则为辅助变量.

为了能够在目标缺失变量同已知的辅助变量之间进行关联性的构建,在下文中将对以上四个变量进行分布图以及散点图的绘制,如图1和图2所示.从图1中可以发现,四个变量均成正态分布,基本符合正态假设.从图2中可以发现,虽有个别极端值,但是各个变量之间还是大致存在线性相关关系的,也基本符合假设需要.

接下来在R语言软件上,利用Jackknife法和贝叶斯法对缺失数据进行多重插补,然后估计模型的参数.表1为利用Jackknife多重插补后估计的模型参数以及相应检验.

结合表格能够发现,在借助Jackknife法展开缺失数据多重插补工作后,能够获取到下列模型关系:表1给出了该模型各个参数的自由度、点估计、标准误差、置信区间、区间宽度、t值和p值.然后为了保证对比的直观全面,采用贝叶斯法展开缺失数据的多重插补,最终形成的模型参数估计情况如表2所示.

由表2可知,利用贝叶斯法对缺失数据进行多重插补后得到的模型为:

从表1和表2的估计检验结果可以看出,利用Jackknife法和贝叶斯法对缺失数据进行多重插补后模型参数的点估计和标准误差区别非常小,参数检验的t值和p值也非常接近,从这四个量来看Jackknife法和贝叶斯法没有太大区别.但是,这两种方法在自由度和区间估计上还是有较大差别的.除了播种面积,其余三个量利用贝叶斯多重插补法得到的参数自由度比利用Jackknife多重插补法得到的参数自由度大,这说明贝叶斯多重插补法有更大的样本支持,所得到的估计也更可靠.从区间估计上来看,在相同的置信水平下,利用贝叶斯多重插补法能够得到更窄的区间宽度,这也说明利用贝叶斯多重插补法所得到的估计更精确.

3 结 论

面对数据的缺失,通常采用的方法是删除法,但是如果数据缺失过多,使用删除法则会失去过多有用信息.这时,插补法往往更优于删除法.在缺失机制为随机缺失的条件下,假设缺失变量和辅助变量均服从正态分布,且缺失变量和辅助变量之间存在线性关系,在这假设下构建了一元正态线性插补模型.而由于存在缺失值,所以线性插补模型的参数是不确定的,对此利用贝叶斯法和Jackknife法对参数进行随机抽取.

根据对粮食产量、粮食播种面积、有效灌溉面积和化肥施用量这些数据的模拟分析发现,虽然这两种方法的核心思想不同,但是最后所得的模型参数的点估计非常接近.不仅如此,利用这两种方法所得到的模型参数的标准误差、t值和p值也都相差无几.然而,这两种方法在自由度和区间估计上的差别较大.利用贝叶斯多重插补法能够得到更大的自由度和更窄的区间宽度,这说明贝叶斯多重插补法相较于Jackknife多重插补法更可靠更精确.但是,从步骤上来说,Jackknife多重插补法实施起来更简便,效率也更高.

参考文献

[1]LITTLE R J,RUBIN D B. Statistical analysis with missing data[M]. New York:Wiley John & Sons,1987.

[2]ALLISON P D. Missing data[J]. Thousand Oaks ca sage quantitative applications in the social sciences,2002,17(9):285-314.

[3]LITTLE R J,RUBIN D B. Statistical analysis with missing data[M].Hoboken:Wiley John & Sons,2002.

[4]RUBIN D B. Multiple imputation for nonresponse in surveys[M]. New York:Wiley John & Sons,2004.

[5]YING G,LITTLE R J. Bayesian multiple for assay data subject to measurement error[J]. Journal of statistical theory & practice,2013,7(2):219-232.

[6]潘传快,熊巍,祁春节. 正态线形模型下缺失值的贝叶斯多重插补—基于柑橘数据的分析[J]. 华中农业大学学报(社会科学版),2017,000(001):72-77.

[7]熊巍,潘传快,祁春节. 農业经济调查缺失数据的贝叶斯和Bootstrap多重插补的比较[J]. 统计与决策,2019,35(04):13-17.

[8]SI Y,REITER J P. Nonparametric bayesian multiple imputation for incomplete categorical variables in large -scale assesent surveys[J]. Journal of educational & behioral statistics,2013,38(5):499-521.

[9]赵馨,闫在在,魏福红,等. PPS抽样中方差估计的刀切法[J]. 阴山学刊(自然科学版),2011,25(2):20-21.

[10] 李苗. 新时代下我国粮食产量的影响因素分析[J]. 价值工程,2019(14).

[11] 郭燕枝,郭静利,王秀东. 我国粮食综合生产能力影响因素分析[J]. 农业经济问题,2007(s1):24-27.

上文结论:这篇文章为一篇关于经典贝叶斯专业范文可作为数据方面的大学硕士与本科毕业论文贝叶斯论文开题报告范文和职称论文论文写作参考文献.

贝叶斯引用文献:

[1] 贝叶斯判别论文范文 贝叶斯判别类毕业论文格式范文2万字
[2] 贝叶斯和朴素贝叶斯算法专升本毕业论文范文 贝叶斯和朴素贝叶斯算法类论文范文8000字
[3] 内部控制和贝叶斯毕业论文开题报告范文 内部控制和贝叶斯毕业论文格式范文2万字
《贝叶斯论文写作资料范文 贝叶斯相关论文范文集2万字》word下载【免费】
贝叶斯相关论文范文资料