聚类和spark大学毕业论文范文关于聚类和spark相关本科论文怎么写5000字有关写作资料-论文写作网

聚类和spark论文范文

《基于Spark技术的新闻信息聚类和热点》

该文是关于聚类和spark相关论文范文例文跟新闻相关论文如何怎么撰写.

摘要近年来,互联网技术的快速更新迭代与智能终端的大规模应用,使互联网中的资讯平台飞速增加,新闻信息的报道量呈指数式增长,从而导致互联网新闻资讯逐渐变得杂乱和臃肿.对于用户来说,虽然能够从新闻平台的个性化推荐中获取热点新闻,但是这些推荐信息存在同质化严重、无法追踪此类新闻发展趋势等困难.因此,如何应用大数据技术来处理和分析海量新闻数据,为用户提供并分析各个领域的新闻热点分类,具有重要的研究意义.

关键词新闻;大数据;Spark;聚类;热点

引言

随着大数据时代的到来,各式各样的新闻内容呈爆炸式增长[1].面对海量的互联网新闻资讯,用户获得了大量内容重复、杂乱无章的新闻信息.如何利用新闻内容聚类分析系统帮助用户对各个领域的新闻信息进行分类并分析新闻热点,从而使用户快速地获得有价值的信息,就具有了重要的研究意义.

Spark是一个开源的大数据分布式处理的平台,是基于内存计算的大数据并行计算框架,主要用于大规模数据的分布式存储和计算,具有高效、方便、可交互、可扩展性的特点,同时又可以保证系统的高容错性和高可靠性[2].如今,Spark架构已经在很多大型企业中得到了广泛的应用,并取得了非常良好的效果.因此,基于Spark技术来构建新闻内容聚类及热点研究系统,可以有效减少新闻大数据的处理分析时间.

1相关理论与技术基础

1.1 Spark

Spark最初诞生于美国加州大学伯克利分校（UC Berkeley）的AMP实验室,是一个可应用于大规模数据处理的快速、通用引擎.2013年,Spark加入Apache孵化器项目后,开始获得迅猛的发展.Spark最初的设计目标是使数据分析更快一一不仅运行速度快,也要能快速、容易地编写程序.为了使程序运行更快,Spark提供了内存计算,减少了迭代计算时的开销;虽然,Hadoop已成为大数据的事实标准,但其MapReduce分布式计算模型仍存在诸多缺陷,而Spark不仅具备Hadoop MapReduce所具有的优点,且解决了Hadoop MapReduce的缺陷[1].

1.2 Scrapy爬虫技术

Scrapy是利用Python语言实现的一个爬虫框架,用于抓取网页内容,提取结构化数据并存储,它基于Twisted实现异步网络通信,并且拥有多个中间件接口,可以接收用户的个性化爬虫需求,灵活度高.同时,它利用布隆过滤器实现URL去重,防止因URL数量不断增加而出现运行效率下降的问题;还提供多种数据输出格式,如JSON、XML等,能够和不同的存储系统连接;能够自动获取网页中的视频、图片等多媒体数据.基于这些优势,Scrapy框架在各类数据挖掘任务中被广泛应用.

1.3 K-Means聚类算法

K-Means是一种聚类算法,其中的K 值代表的是类别的数目,Means 代表均值.因此可以将K-Means算法理解为通过求均值对于数据进行聚类的算法.K-Means算法对于K值进行预先的设定,之后进行文本之间的相识度计算,主要是样本与中心之间的计算,最后达到将相似性最高的文本都划分到同一集合的效果.此算法需要不停地进行迭代操作来产生最优的结果.

2系统总体设计

此次研究目标是挖掘与追踪各个新闻领域内的热点信息,因此系统需要首先利用Scrapy网络爬虫技术来获取新闻数据,并将获取到的新闻数据集进行分词和去停用词等预处理操作,其次利用K-Means聚类算法对各个领域的新闻进行聚类划分,以形成不同领域的新闻数据聚类集,然后对各个新闻聚类进行话题挖掘并追踪热度以便用户能够更加便捷地了解新闻资讯.

根据上述流程的描述,此分析系统主要分为4个模块,即新闻数据获取模块、新闻数据预处理模块、新闻数据聚类模块和新闻热点提取模块.系统架构如图1所示[2].

3系统设计实现

3.1 新闻数据获取

首先需要利用Scrapy网络爬虫技术抓取源新闻数据,数据获取模块被设计为仅收取新闻标题、发布的时间、新闻内容、用户点赞数和评论数等有用信息,会过滤掉外部链接、广告等与无关内容,以便后续的模型训练.

3.2 新闻数据预处理

在完成新闻数据源的采集后,虽然此时的数据集中已没有和系统目标无关的文本内容,但是由于计算机无法直接理解句子的内容,还需要对文本数据进行预处理操作,预处理操作分为分词和去停用词.分词主要是针对新闻标题和新闻的正文内容,将其中的段落内容按照规则切分为单个词语,切分后的词语是文本向量化的基础.经过分词操作之后,会出现很多与表征文本内容不相关的词语,如语气词、关联词和标点符号等,这些词被统一称作停用词,他们的存在会模糊各个文档之间的分类界限,因此在下一步操作之前还需要将停用词去除.

预处理得出的结果存储到MySQL数据库中[3].

3.3 新闻数据聚类

从MySQL数据库中读取预处理后的数据,使用TF-IDF函数来计算词条的权值,使用向量空间模型（V）将预处理后的数据集向量化,向量空间模型将文档映射为一个特征向量,式中是不同的词条项,为在中的权值,其取值为在的出现频率,具体公式为：

式中,是词条在中出现频率的函数,是含有词条的文档数目,是所有文档的数目.文档中词条出现的频率越高,则文档对内容属性的区分能力越强,其权值也越大.

文档与文档的相似度计算公式为：

根據文档间相似度,再利用K-Means聚类算法对数据进行数据聚类分析.有数据集D,从D中任意选择k个点作为初始聚类中心,记为,聚类算法步骤如下所示：

对剩余的每个样本,分别对每个样本与聚类中心的相似性进行计算,计算公为.若通过计算公式得到的结果越小则表明两者间的相似性越强,这样把样本划分入与之相似性最强的聚类里.再次聚对类中的样本相似度利用公式进行计算,并求出其平均值,其中代表第类含有样本的数量.

反复进行步骤（1）中的操作过程,当准则函数趋于稳定之后停止聚类算法的迭代[4].

3.4 新闻热点提取

（1）新闻话题热度值计算

在获得各领域新闻信息聚类后,需要对各个新闻聚类的热度值进行计算,本系统按照话题相关报道数量、话题相关报道集中度和话题相关报道来源数量三个维度来计算新闻资讯的热度值,计算公式为：,式中,n与m分别表示与话题C相关的报道与来源的数量;与分别表示与话题C相关的最终报道与首次报道的时间;N与M分别代表在特定期限至内获得到的所有报道与来源的数量.

（2）热点话题标题抽取

热点话题词指能较大程度地代表本条新闻的词语,是能够反映出新闻报道所阐述的主题.因此,热点话题词语的提取不仅仅要考虑词频、文档频率以及词共现等方法,还要从语义方面对词的权重进行考量,热点话题词提取计算公式如下：,式中,表示在新闻中不同的词汇合集,对处于新闻聚类内的每一条新闻按照上述计算公式提取出关键词后统计词频,生成前个关键词即可作为该新闻聚类的热点话题[5].

4结束语

综上所述,本文通过Scrapy网络爬虫技术抓取海量新闻稿件并进行预处理操作后,利用基于Spark系统架构和K-Means聚类算法对所抓取的各个领域的新闻热点进行分析与追踪,并对每一类新闻资讯进行实时分析.最终能够使用户自主选择关注不同领域的热点话题,并有效提升了新闻热点挖掘与追踪的性能.

参考文献

[1] CNNIC.第41次中国互联网络发展状况统计报告[R].北京：中国互联网信息中心,2018.

[2] 肖剑楠,刘梦尘,刘世霞.新闻数据可视分析系统[J].计算机辅助设计与图形学学报,2016,28（11）：1863-1870.

[3] 万晓霞,赵佳.基于聚类的网络新闻热点发现研究[J].现代计算机,2015（26）：36-39.

[4] 武永亮,赵书良,李长镜,等.基于TF-IDF和余弦相似度的文本分类方法[J].中文信息学报,2017,31（5）：138-145.

[5] 李洪利,王箭.基于用户关联的热点话题检测方法[J].计算机与现代,2015（4）：20-25.

此文结论:此文是关于对不知道怎么写新闻论文范文课题研究的大学硕士、聚类和spark本科毕业论文聚类和spark论文开题报告范文和文献综述及职称论文的作为参考文献资料.

聚类和spark引用文献: