有关数据挖掘在高校科研业务管理系统中的应用毕业论文写作资料-论文写作网

简介:关于数据对象方面的论文题目、论文提纲、数据对象论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

数据对象论文范文

一、引言

随着我国高等教育结构的调整和规模的扩大,我国高等教育已经迈入大众化教育阶段,而科研工作也已成为高校除人才培养之外所承担的又一项重要工作,高校的科研活动和科研能力日益成为高校综合实力表征的重要指标之一.

许多高校为了更好地对学校科研工作进行管理,纷纷开发了适应自身特点的科研业务管理系统,并在使用过程中积累了大量的科研信息数据.但是,大多科研业务管理系统并没有对这些数据进行深入分析,对数据所隐藏的价值没有充分挖掘利用.本文将探讨通过设计挖掘系统,应用聚类算法对科研业务管理系统中积累的数据进行分析,以期得到教师个人素质与科研工作的潜在规则,从而使学校能够更加有效的引导科研工作者开展科研工作.

二、数据挖掘概述

数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中,提取隐含在其中、但又是潜在且有用的信息和知识的过程.它可以把对各种数据的应用从低层次的简单查询提升到从数据库中发掘知识,帮助决策者寻找数据间潜在的关联,发现被忽略的信息.

一般来说数据挖掘可分为两类,即预言性数据挖掘和描述性数据挖掘.预言性数据挖掘对数据进行分析,建立一个或一组模型,而后根据模型产生关于数据的预测；描述性数据挖掘是以概要的方式对数据信息进行描述,从而提供数据的一般性质.

预言性数据挖掘使用的主要方法是分类,分类是根据数据集找到可以描述并区分数据类别的分类模型,使其可以预测未知数据的类别.分类的主要算法有朴素贝叶斯算法、人工神经网络、规则推导、决策树算法、最近邻算法等.

描述性数据挖掘采用的主要方法包括聚类、异常检测等.其中,聚类是把数据集分为不同的类或簇,使得类和类之间对象的差别明显,而类内部各对象之间的差异很小.异常检测则是用来发现“小的模式”,也就是找到数据集中与大多数数据不同或不一致的数据对象.

三、聚类分析的应用

聚类分析是直接对研究对象进行分类,将具有相似性质的对象归为一类或簇,而将具有不同性质的个体归到不同类中通过对现有数据进行聚类分析,可以从众多参与科研工作的人员中找出最有价值的一部分,从而制定相关措施使其更好的开展科研工作.

k平均聚类算法(k-Means)是一种基于划分方法的算法,是较早提出的较为经典的聚类算法之一.它的主要思想是对n个数据对象给出k个划分(k≤n),其中每个划分代表一个簇或分类.首先,随机地选择k个对象,每个对象初始地代表一个簇的平均值或中心.对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇.之后重新计算每个簇的平均值,再对每个对象与每个簇的平均值相比较,把对象赋给相应的某个簇.不断重复这个过程,直到簇中的对象都是近似的,而不同簇中的对象都是相异的.对象间的距离计算公式如下：

其中x表示样本坐标,也就是科研工作者的一些基本特性.

K中心点坐标的公式

[(X11+X12+等+X1n)／n,(X21+X22+等+X2n)／n,等]

K平均聚类算法对于大数据集的处理是相对可伸缩的和高效的,当结果簇密集,且簇与簇之间区别明显时,它的聚类效果较好.但它还是存在缺点,主要表现在：受到初始选定的聚类中心的影响可能过早收敛于非最优解；要求用户必须先给出要生成的簇的数量,即k值,而不准确的k值会导致聚类的质量下降,对于“噪声”和孤立点数据较敏感,少量的该类数据可能对簇平均值产生极大的影响；此方法只有在簇平均值被定义的情况下才能使用,这对于处理符号属性的数据并不适用.