有关基于贝叶斯算法的网络广告监督管理毕业论文写作资料-论文写作网

简介:关于对不知道怎么写网络广告分词论文范文课题研究的大学硕士、相关本科毕业论文网络广告分词论文开题报告范文和文献综述及职称论文的作为参考文献资料下载。

网络广告分词论文范文

摘要：近年来,网络广告得到了迅速的发展,但同时也出现了网络虚假广告泛滥等问题,并严重影响到了消费者的利益和社会的稳定.针对网络虚假广告分类问题,本文在传统加权朴素贝叶斯算法的基础上,提出了改进的贝叶斯分类算法,所提方法将分类过程分为两次,并增加了模型的修正和自动完善过程.实验结果表明,与传统加权朴素贝叶斯分类算法相比,该方法表现出了较优的分类准确性与效率,能够有效提升网络广告监管的质量.

关键词：网络广告；网络广告监督管理；改进的贝叶斯算法

引言

随着互联网的蓬勃发展,网络广告在短期内迅速发展壮大,已经成为继报纸、杂志、广播、电视之后的第五大广告媒体[1].据艾瑞咨询报告显示,2013年中国整体网络广告市场规模为1100亿元,市场同比增长达到46.1%.2014年中国网络广告市场再次迎来发展的制高点,市场规模达到了1540亿元[2].网络广告在蓬勃发展的背后,由于网络自身的开放性与自由性,导致网络广告的发布渠道出现了隐蔽、多样的特性[3].同时,由于网络市场准入门槛较低、网络广告受众多、法律法规制定的相对滞后、政府行政监督手段和监管技术无法与市场变化相匹配等特性,导致网络广告发展过程中出现了诸多问题,不良广告、违法违规广告趁虚而入,不仅破坏和影响了正常的市场秩序,同时严重阻碍和制约了网络经济健康、有序的发展.实现对网络广告的有效监管,是维护网络广告市场秩序,促进我国网络广告市场健康发展的必要条件和途径.

神经网络分词:动词不定式,过去分词,现在分词,动名词区别与用法北鼻

网络作为一种特定介质的广告发布平台,网络结构的复杂性和海量网络信息加大了网络广告监管工作的难度.目前,在网络广告监管领域,从国家到地方政府都在进行着一系列积极的尝试,制定了一些相关规章制度,建设了一批网络广告监管平台和系统.针对网络广告监管问题,一些地方政府从技术创新入手,并结合自身的实际情况,采取了积极的探索.浙江省工商局于2007年推出了全国首个“工商营业执照网上标识”,解决了网络经营主体身份不明、信用缺失的难题,将网络体系建设推向更高一个台阶[4].浙江嘉兴市工商局利用网络监管软件,把涉性、涉药、涉医等企业重新编定企业组,调整规则库,设定新的敏感词汇进行非法网络广告的搜索[5].深圳市针对网络广告监管“四大难题”中“发现难”的问题,建立该市经营性网站开办单位数据库,将网站划分为搜索性网站、BBS形式网站等八大类,分项精细化监测,对违法广告内容通过搜索引擎、国家局搜索雷达系统,实现迅速锁定违法广告及网站[6].

为实现网络广告的常态化监管,重庆市工商局建立了“网络广告检测系统”,该系统充分运用互联网智能搜索引擎技术,实现了对重庆市注册的12家门户网站以及专业性网站发布的所有形式的网络广告数据的自动采集、分析、汇总,通过对采集数据的分析、整理,形成对网络广告的自动监测平台[7].以上地方监管实践通过技术创新,很好地提升了网络广告监管效率.

为了进一步提升网络监管质量,本文提出了基于贝叶斯算法的网络广告监管策略.该方法采用改进的贝叶斯算法对训练样本集进行训练得到贝叶斯分类模型,然后基于训练的模型对网络广告进行分类,实现对网络广告监管.实验结果表明,本文的方法取得了较好的网络广告监管效果.

1.原理方法

贝叶斯算法是以著名数学家托马斯.贝叶斯(Thomas Bayes)(1702-1761)命名的一种基于概率分析的可能性推理理论,通过对已有事件的分析,来预测未来事件的可能性[8].贝叶斯作为一种稳定且效率高的分类器,具有算法简单、待估参数少、数据敏感性低等特性,并在处理大数据方面比决策树、神经网络等数据挖掘算法具有更优的性能.目前,贝叶斯算法已广泛应用于处理各类数据分析问题,如垃圾邮件的过滤[9,10]、垃圾短信的过滤[11,12]、城市居民出行方式的预测[13]、计算机辅助疾病诊断和疫情判别[14]等.

1.1 朴素贝叶斯原理

网络广告监督管理的主要目的是过滤虚假网络广告,为用户提供一个健康安全的上网环境,而虚假网络广告过滤的实质是广告的分类问题,将广告分为虚假广告和正常广告.贝叶斯方法可以通过对已经正确分类的广告的学习,来判定新给出的广告是否为虚假广告.

2.基于贝叶斯算法的网络广告监督管理模型

基于贝叶斯算法的网络广告监管模型分为两个阶段,分别是训练阶段和广告分类阶段.其中贝叶斯分类模型训练流程如图1所示,主要包括数据准备、数据预处理、贝叶斯分类器的训练、人工修模、模型评估等过程；贝叶斯分类模型的应用流程如图2所示,主要是采用训练的模型对待分类广告进行类别划分,其主要囊括了待分类广告数据的预处理、基于贝叶斯分类模型的两次分类过程、分类结果的判定、分类结果的输出等.

2.1 训练样本预处理

在进行训练样本预处理之前,首先由工作人员甄选出训练集数据和测试集数据,数据集中主要包括正常广告和虚假广告的页面URL.然后对得到的训练集数据做预处理操作,删除冗余数据,仅保留对模型训练有用的关键信息.

网络广告预处理主要包括三个步骤：第一步是数据采集,即依据页面URL采集页面信息；第二步是从采集的页面信息中提取出正文内容；最后一步是对上一步提取的正文内容进行中/英文分词,并删除冗余分词,尽可能简化文本表达.

正文分词的质量在很大程度上制约着训练集样本的质量,影响着构建模型的执行效率.因此在进行正文分词前,需要选择合适的正文分词方法,本文选择的正文分词方法为ansj算法.之后,对获取的分词进行筛选,获取特征分词,主要过程是删除文本中常见的词汇,如连词、助词以及功能词等,筛选得出的分词要满足独立性,即每个特征分词之间互不影响.分词后的广告存储格式为：<,广告URL,广告类别,特征分词>,.

2.2 贝叶斯分类器的训练

网络广告类别主要分为正常广告和垃圾广告,正常广告所对应的特征分词为：R={r1,r2,,rm}.垃圾广告类别集合为C={c1,c2,,cn},其不同类别对应的特征分词划分为W={w1,w2,,wt}.训练过程主要分为如下两个阶段：

（1）概率参数学习

概率参数的学习主要包含两部分：

a)第一部分是将广告类别看做正常、虚假两类进行训练.主要计算内容有正常广告在训练样本中所占概率P(正常)、正常广告所对应特征分词对正常广告的条件概率估计P(Ri|正常) (i=1,2,,m,)、虚假广告在训练样本中所占概率P(虚假)、虚假广告所对应特征分词对虚假广告的条件概率估计P(Ri|虚假) (i=1,2,,m,).训练结束后,生成两个哈希表对正常广告所包含特征分词与P(Ri|正常)的关系、虚假广告所包含特征分词与P(Ri|虚假)的关系分别进行存储.

b)另一部分是针对虚假广告具体类别的训练.计算ci类虚假广告在训练样本中的所占概率P(ci) (i=1,2,,n),以及每个特征分词划分对每个类别的条件概率估计P(wj|ci)( i=1,2,,n, j=1,2,,t).在虚假广告训练结束后,需要生成两个哈希表,对虚假网络广告类别与P(ci)的关系、每个特征分词与P(wj|ci)的对应关系分别进行存储.

（2）权值参数学习.

采用公式2-6特征权重函数依次计算训练集中所包含特征分词所对应的权值,并生成特征分词权值列表.权重参数学习主要包括两步：首先将广告类别看做正常、虚假两类,计算两类中包含特征分词所对应的权值,并生成两个哈希表进行存储；然后对虚假广告所包含具体类别中每一类包含的特征分词相应的权值,生成哈希表对分词权值进行保存.

在训练结束后,判定是否需要进行训练模型的修正.若哈希表中不包含样本库中已有的特征分词,则跳转至下一步；假如哈希表中出现样本库中不存在的特征分词,并且概率值高于0.6,则自动将概率值调整降低0.3,进而避免非关键特征分词对分类结果的影响.同时,将修正结果存储至哈希表.

2.3 贝叶斯分类模型的评估

通过训练过程得到贝叶斯分类模型后,需要对构建的分类模型进行性能评估.将抽取的测试集数据输入贝叶斯分类模型,自动进行数据的预处理与广告类别的划分.在分类过程中,对分类开始的时间Tbegin与结束时间Tending进行记录,则分类过程所耗费的时间为T=Tending-Tbegin,分类效率由高到低分三个级别：High、Medium、Low,本文抽取训练集数据1600个,测试集数据为400个,相应的分类效率级别划分标准如表1所示.分类结束后,工作人员对分类准确性进行判定,分类准确性计算公式为：S=分类结果正确数目/测试集广告总数目,分类准确性由高到低分A、B、C三个级别,相应的判定标准如表2所示.

当且仅当分类等级≥B、分类效率≥Medium时,即可认定该模型性能达标,并将训练的贝叶斯分类模型存储至模型库,为之后贝叶斯分类模型的构建提供支持.若分类效率不达标,判断是否可以通过增加分布式服务器来改善；若分类准确性不达标,则对模型的训练过程进行追溯,查找影响模型准确性的关键因素,并进行相应的调整,直到模型达标.

2.4 基于贝叶斯算法的网络广告监管模型

当系统中收到新的分类请求时,首先对待分类广告数据进行预处理,处理过程与训练样本预处理过程相同,预处理得出待分类广告的特征分词V={ v1,v2,,vk}.然后进行广告类别的划分,主要包括两次分类过程：第一次先采用公式2-6判定该广告是否为正常广告,此处xi的类别仅有正常广告和虚假广告两种；若非正常广告,直接跳转至第二次分类过程,此分类过程中xi包含虚假广告的具体类别,并取概率值最高的为虚假广告类别.

分类结束后,由工作人员对分类结果进行判定.假如分类正确,将分类结果转化为如下格式：<,广告URL,广告类别,特征分词>,,并将其存储至样本库,保证模型的增量学习.假如分类错误,查找影响分类准确性的因素：若为模型缺陷,对模型流程进行调整；若属于数据问题,则对数据进行重新处理后分类.下面给出基于bayes的网络广告监管算法.

3.实验模拟

为验证本文所提网络广告监管方法的有效性,本次测试选择2000条网络广告样本进行实验,广告类别主要有正常广告和虚假广告,其中虚假广告又包含医疗虚假宣传广告、药品虚假宣传广告、烟草虚假宣传广告、护肤品虚假宣传广告等.

实验中采用预留法作为测试方法,将样本数据分割成5个子样本,每份400条广告.实验时,每次取其中一个子样本作为测试样本,并用其余4个样本作为训练样本,对其进行贝叶斯分类器的训练.以此类推,直到5个分类器训练结束,同时将5个测试结果与测试耗费时间进行统计,使用5次测试结果来综合衡量模型的性能.

为对比分析,本文同时实现了基于传统加权朴素贝叶斯算法以及本文改进的贝叶斯算法对网络广告进行分类.两种算法的分类准确性分别如表1、表2所示,测试耗费时间对比如图3所示.

从表1中可以发现,传统贝叶斯算法对于正常广告和虚假广告进行识别分类,查全率均达到了84%以上；查准率方面来讲,除了医疗虚假宣传广告和药品虚假宣传广告的查准率较低,其余广告的查准率均达到了90%左右.表2为本文改进的贝叶斯算法对网络广告的分类结果,观察可以得出,其对网络广告的查准率与查全率均达到了88%以上,尤其是对于医疗虚假宣传广告和药品虚假宣传广告,相较于传统贝叶斯算法的分类准确性有了明显的提升.

图3为两种分类算法的分类效率的对比,从图中可以明显看出,在五组数据分类的过程中,本文改进的贝叶斯算法均表现出了较优的分类效率,并达到了模型的评估标准.综上可知,本文提出的改进的贝叶斯算法在保证分类质量稳步提升的基础上,很好的保证了分类的效率,表现出了论文范文的性能.

4.结论

本文针对网络广告监管存在的问题,设计并实现了基于改进贝叶斯算法的网络广告监管模型,该模型针对传统贝叶斯算法流程的缺陷,增加了模型的修正过程和自动完善过程,并提出了两次分类策略.实验结果表明,该模型在网络广告监管性能中体现出了良好的动态调整能力,有效提升了虚假网络广告的识别度,减少了虚假网络广告的误判率.所建立的贝叶斯网络广告监管模型对深入研究网络广告的特性、对网络广告的有效监管具有一定的实践意义.

参考文献：

[1] 黄攀.我国网络广告监管中存在的问题及应对策略[J].西南农业大学学报(社会科学版).2008,6(6):68-70.

[2] 郭宇,王芳.网络广告存在的问题及其对策[J].内蒙古农业大学学报(社会科学版).2015,17(80):50-54.

[3] 刘寅斌,马贵香,李洪波.我国网络广告监管创新模式研究[J].科技管理研究,2010,16:30-33.

[4] 胡一敏.浙江启用全国首个"工商营业执照网上标识".论文范文网浙江频道. http://www.zj.xinhuanet.com/newscenter/2007-12/07/content_11869956.htm . 2007,12,07.

[5] 沈雁,陈笑伦. 浙江强化网上非法“性药品”广告和性病治疗广告整治.浙江省工商行政管理局. http://gsj.zj.gov.cn/zjaic%20/jrgs/gsyw/200712/t20071220_61636.htm.2007,12,20.

[6] 深圳市局工商. 深圳市局全面论文范文网络广告监管“四大难题”.广东省工商行政管理局. http://www.gdgs.gov.cn/publicfiles/business/htmlfiles/gdgsj/s37/201010/23997.html.

[7] 重庆市工商局. 变突击检查为常态监管. 重庆网络广告监测系统初试身手［N/OL］.( 2009-03-13) ［2009-11-15］.http://www.cqgs.gov.cn/mtbd/qtbd/1070.htm.

[8] 李静梅,孙丽华,张巧荣,等. 一种文本处理中的朴素贝叶斯分类器[J].哈尔滨工程大学学报,2013,24(1):71-74.

[9] 李雯, 刘培玉. 基于贝叶斯的垃圾邮件过滤算法的研究[J].计算机工程与应用,2007,43(23):174-176,183.

[10] 马小龙. 一种改进的贝叶斯算法在垃圾邮件过滤中的研究[J].计算机应用研究,2012,29(3):1091-1094.

[11] 张东亮,董礼. 基于改进的朴素贝叶斯算法在垃圾短信过滤中的研究[J].计算机测量与控制,2012,20(2):526-528,551.