有关基于泛在网络的大学生情绪语料库的构建毕业论文写作资料-论文写作网

简介:该文是语料库和大学生有关论文范文集和语料库方面毕业论文的格式范文.

语料库和大学生论文范文

[摘要]随着信息分享、交流、传播等各种网络社交行为的经常化,对泛在网络中的大学生情绪信息进行分析及研究,有利于开展大学生群体的实时情绪监测、舆情发现、舆论引导等工作.使用集搜客网络爬虫软件挖掘2017年7月至2018年7月百度贴吧中的高校贴吧的文本信息,获得289万份语料文本,经去噪、去重后获得114万份文本,基于基本情绪及大学生特有情绪分为“悲伤、痛苦、愤怒、害怕、惊奇、高兴”6类大学生情绪类别,基于词频统计数据确定各情绪类别核心词,并使用基于Word2vec工具进行训练,构建基于泛在网络的大学生情绪语料库,为大学生领域的情绪聚类研究提供支撑.

[关键词]泛在网络;大学生;情绪语料库

[中图分类号] G645 [文献标识码] A [文章编号] 2095-3437（2020）01-0189-03

随着学业压力、就业压力的增大,大学生心理问题凸显,各大高校纷纷寻求对策,围绕心理健康教育、第二课堂活动、心理状况筛查等方面开展了大量的工作,并取得了不少成绩.可是目前大学生的心理健康测试普遍存在主观性强、隐藏性强、准确性不够的特点,这给心理危机事件的预防和处理带来了困难.

新媒体环境下,泛在网络已日益成为反映大学生学习、生活真实情绪的平台.大学生不只能够在各种网络社交平台中自由分享实时心情、动态等,还可以及时对他人提供的信息进行反馈和评论.泛在网络中海量文本数据真实、全面、实时、互动的特点,为分析大学生群体的情绪提供了便利条件.

一研究现状

为了加强对文本的情感挖掘,国内学者先后研发了知网Hownet情感词典、清华大学李军中文褒贬义词词典、大连理工大学情感词汇本体词典等,并基于微博,通过计算情感词的情绪权值[1]、反馈“异常情感”[2]、无监督情感分类、判断情感倾向类别[3]进行了文本情绪挖掘的优化,将深度学习的方法引入文本情感识别工作中,用句法依赖规则和词性特征[4]、Word2vec[5]、HMM[6-8]、卷积神经网络[9]构建模型,预测情感强度.

相较于情感的内隐性、持续性等特点,情绪在第一时间产生,往往是伴随着生理唤醒和外部表现的主观体验[10].大学生情绪具有体验丰富、波动强烈、反应敏感等特点,并随着学业、就业等压力的增大而日益凸显.对大学生的实时情绪进行动态挖掘和分析,对于大学生心理健康教育有着非常重要的意义.

本文拟通过自然语言处理方法,对泛在网络环境中的大学生文本进行情绪词语采集和挖掘,并通过深度学习的工具方法,按照情绪类别和权值等性质排序,初步建立大学生情绪语料库.

二 WEB文本数据采集

随着互联网的普及,大学生在泛在网络环境中不断发生大量的检索、浏览、下载等行为,并在互联网社交平台中留下大量的数据痕迹[11].相较于、微信的隐私性以及微博用户的不确定性,全球最大的中文社区、注册用户量已达到10亿的百度贴吧具有明确的高校主题、准确的社区分类以及深度互动等特点,为大学生情绪文本的采集提供了便利条件.

2017年7月至2018年7月,课题组通过网络爬虫工具即集搜客,以“百度贴吧高校”为关键词进行搜索,连续采集600个高校贴吧中的主题帖以及跟帖数据,获取共计289万份贴吧文本数据,经去噪、去重处理后获得114万份文本数据.

三文本预处理

大学生的网络文本具有文本量大、文本长度短、表达不规范[12]等特点,这给情绪的准确识别带来很大的困难.课题组基于以上特征,结合现有的分词软件功能,设立分词预处理比较原则如下：①文本提取的完整性,文本保留得越完整越好.②按照最少切分原则,比较词元个数,数量越少越好.③比较词长平均长度,长度越平均越好.

课题组在百度贴吧中随机抽取一份大学生文本,其原文如下：“毕设让我要疯了：有没有哪位大神会m序列的特性分析用C语言编出来,我要疯了,这都是什么鬼,完全是毫无头绪.”课题组基于天据英眼、ROSTCM、IKAnalyzer、Paoding、jieba这5种常用的开源分词工具对此进行分词处理,结果如表1.

按照以上原则来分析会发现,IKAnalyzer、Paoding、jieba5都存在自定义扩展词,天据英眼、IKAnalyzer的分词结果中词数量相对较多,ROSTCM6在文本完整性、词元数量、词平均长度方面均具有较好的效果,故将该工具作为文中大学生文本的预处理工具.

课题组将114万份贴吧文本数据进行分词、去噪,剔除12770项重复词语,删除出现频率低于2的词汇,确定42833个词语作为大学生基本词汇.

四情绪分类及核心词的确定

20世纪中叶,学者们基于面部表情等身体体征对情绪进行了界定和分类,取得了不少成果.随着互联网的发展,海量互联网文本信息的有效获取以及数据挖掘技术和分析技术的不断提升,学者们逐步转向对语言的情绪分类研究.

通過比较现有文本情绪分类的基本情绪分类,尤其是针对网络微博的情绪分类,确定“高兴、愤怒、悲伤、害怕、惊奇”5种文本基本情绪类别.结合大学生学习、经济、就业、人际交往等应激源元素以及引发自杀的直接原因即心理痛苦[13],添加“痛苦”类情绪,建立“悲伤、痛苦、愤怒、害怕、惊奇、高兴”6类大学生情绪类别.借助武汉大学开源的ROSTCM6软件对42833个词语进行大学生基本词汇词频统计和人工分类后,将各类情绪类别高频词按照数量高低统计如表3所示.

按照以上统计数据,确定词频数最大的高频词为该类情绪的核心词.

五语料训练

(一)Word2vec模型选择

Word2vec是google公司2013年推出的一款用于自然语言处理中词向量训练的开源软件工具,通过计算机训练给定文本的输入和输出,并不断修正这个神经网络中的参数,得到词向量.

Word2vec有2种训练框架： ①在给定上下文的情况下,词 w的概率CBOW（continuous bag-of-words）,其特点是训练速度快,但窗口范围外的词汇关系难以正确被模型所捕获.②在给定词w的情况下,其上下文概率的 Skip-gram （continuous skip-gram） ,其特点是低频词的训练效果较好[14].考虑到泛在网络论坛文本中新词及低频词大量存在,因此选择Skip-gram模型进行训练.

(二)Word2vec的工程目录

Word2vec项目中与训练词向量相关的语言文件主要是Learn.ja、Word2vec.Ja 2个文件,其中,Learn.ja文件中包含了特征的训练、训练的模型、词频统计的实现,Word2vec.ja包含了模型的加载以及相似度的計算.

(三)训练参数比较

1.相同词汇在不同数据量的相关性数据比较

相同词汇在不同的数据量下,数据量的增大以及首次出现的新词,导致相同词汇与种子词之间相关性的非线性变化,其结果如表4所示.

2.相同词汇在不同窗口条件下的相关性数据比较

经过对去噪、去重等处理后的114万份语料文本进行实验后,在相同词汇下的不同窗口中可以看出,在窗口大小为10的时候其相似度更大,而且在人工挑选时通过去噪、去重处理的无意义词汇最少,其结果如表5所示.

获取适用于大学生情绪词特征提取的方法：在窗口大小为10的情况下选择大样本分析.

(四)实验结果

114万份语料文本经Word2vec训练后,以“悲伤”为悲伤情绪的核心词得到情绪词362个,以“哭”为痛苦情绪的核心词得到情绪词272个,以“骂”为愤怒情绪的核心词得到情绪词304个,以“打”为恐惧情绪的核心词得到情绪词338个,以“酷”为惊奇情绪的核心词得到情绪词322个,以“好”为高兴情绪的核心词得到情绪词302个.

通过各词语与各类情绪核心词的相似度计算,建立大学生情绪词典语料库如表6所示.

六展望

本文通过挖掘百度贴吧中的高校大学生文本,并基于Word2vec方法初步建立具有针对性的大学生情绪语料库.接下来,课题组将拓展泛在网络中的大学生文本数据来源,继续挖掘文本数据,并通过验证和实验进一步提升分词效率,增强情绪值的准确性,不断完善和更新语料库,为更有效地开展大学生情绪聚类分析提供支撑和便利,从而为大学生心理健康教育和管理提供有效借鉴.

[ 参考文献 ]

[1] 阳爱民,林江豪,周咏梅.中文文本情感词典构建方法[J].计算机科学与探索,2013（11）：1033-1039.

[2] 孙波,陈玖冰,刘永娜.大数据背景下的学生情感词典构建方法[J].北京师范大学学报（自然科学版）,2015（4）：358-361.

[3] 柳位平,朱艳辉,栗春亮,等.中文基础情感词词典构建方法研究[J].计算机应用,2009（10）：2875-2877.

[4] 邓淑卿,李玩伟,徐健.基于句法依赖规则和词性特征的情感词识别研究[J].情报理论与实践,2018（5）：137-142.

[5] 杨小平,张中夏,王良,等.基于Word2Vec的情感词典自动构建与优化[J].计算机科学,2017（1）：42-47+74.

[6] 谷学静.基于人工心理的HMM情感建模方法及虚拟人技术研究[D].北京：北京科技大学,2003.

[7] 张谦,高章敏,刘嘉勇.基于word2vec的微博短文本分类研究[J].信息网络安全,2017（1）：57-62.

[8] 李锐,张谦,刘嘉勇.基于加权 word2vec的微博情感分析[J].通信技术,2017（3）：502-506.

[9] 张志华.基于深度学习的情感词向量及文本情感分析的研究[D].上海：华东师范大学,2016.

[10] 傅小兰.情绪心理学[M].上海：华东师范大学出版社,2016：5.

[11] 刘林.面向论坛文本的大学生情绪识别研究[D].武汉：华中师范大学,2016.