当前位置:论文写作 > 毕业论文范文 > 文章内容

数据挖掘在高校科研业务管理系统中的应用

主题:数据对象的属性 下载地址:论文doc下载 原创作者:原创作者未知 评分:9.0分 更新时间: 2024-02-14

简介:关于数据对象方面的论文题目、论文提纲、数据对象论文开题报告、文献综述、参考文献的相关大学硕士和本科毕业论文。

数据对象论文范文

数据对象的属性论文

目录

  1. 一、引言
  2. 二、数据挖掘概述
  3. 三、聚类分析的应用
  4. 三、结束语
  5. 数据对象的属性:[2014]兄弟连高洛峰 PHP教程15.2.6 用PDO存取大数据对象

魏一搏

(石家庄信息工程职业学院河北石家庄 050035)

摘 要:本文探讨了利用高校科研管理系统逐年积累下来的大量教学和科研信息,使用数据挖掘技术从中获得科学的依据、预测,为学校提供决策支持,从而更加有效的引导学校开展科研工作.

关键词:数据挖掘;科研业务管理;聚类分析

一、引言

随着我国高等教育结构的调整和规模的扩大,我国高等教育已经迈入大众化教育阶段,而科研工作也已成为高校除人才培养之外所承担的又一项重要工作,高校的科研活动和科研能力日益成为高校综合实力表征的重要指标之一.

许多高校为了更好地对学校科研工作进行管理,纷纷开发了适应自身特点的科研业务管理系统,并在使用过程中积累了大量的科研信息数据.但是,大多科研业务管理系统并没有对这些数据进行深入分析,对数据所隐藏的价值没有充分挖掘利用.本文将探讨通过设计挖掘系统,应用聚类算法对科研业务管理系统中积累的数据进行分析,以期得到教师个人素质与科研工作的潜在规则,从而使学校能够更加有效的引导科研工作者开展科研工作.

二、数据挖掘概述

数据挖掘是从大量、不完全、有噪声、模糊、随机的数据中,提取隐含在其中、但又是潜在且有用的信息和知识的过程.它可以把对各种数据的应用从低层次的简单查询提升到从数据库中发掘知识,帮助决策者寻找数据间潜在的关联,发现被忽略的信息.

一般来说数据挖掘可分为两类,即预言性数据挖掘和描述性数据挖掘.预言性数据挖掘对数据进行分析,建立一个或一组模型,而后根据模型产生关于数据的预测;描述性数据挖掘是以概要的方式对数据信息进行描述,从而提供数据的一般性质.

预言性数据挖掘使用的主要方法是分类,分类是根据数据集找到可以描述并区分数据类别的分类模型,使其可以预测未知数据的类别.分类的主要算法有朴素贝叶斯算法、人工神经网络、规则推导、决策树算法、最近邻算法等.

描述性数据挖掘采用的主要方法包括聚类、异常检测等.其中,聚类是把数据集分为不同的类或簇,使得类和类之间对象的差别明显,而类内部各对象之间的差异很小.异常检测则是用来发现“小的模式”,也就是找到数据集中与大多数数据不同或不一致的数据对象.

三、聚类分析的应用

聚类分析是直接对研究对象进行分类,将具有相似性质的对象归为一类或簇,而将具有不同性质的个体归到不同类中通过对现有数据进行聚类分析,可以从众多参与科研工作的人员中找出最有价值的一部分,从而制定相关措施使其更好的开展科研工作.

k平均聚类算法(k-Means)是一种基于划分方法的算法,是较早提出的较为经典的聚类算法之一.它的主要思想是对n个数据对象给出k个划分(k≤n),其中每个划分代表一个簇或分类.首先,随机地选择k个对象,每个对象初始地代表一个簇的平均值或中心.对剩余的每个对象,根据其与各个簇中心的距离,将它赋给最近的簇.之后重新计算每个簇的平均值,再对每个对象与每个簇的平均值相比较,把对象赋给相应的某个簇.不断重复这个过程,直到簇中的对象都是近似的,而不同簇中的对象都是相异的.对象间的距离计算公式如下:

其中x表示样本坐标,也就是科研工作者的一些基本特性.

K中心点坐标的公式

[(X11+X12+等+X1n)/n,(X21+X22+等+X2n)/n,等]

K平均聚类算法对于大数据集的处理是相对可伸缩的和高效的,当结果簇密集,且簇与簇之间区别明显时,它的聚类效果较好.但它还是存在缺点,主要表现在:受到初始选定的聚类中心的影响可能过早收敛于非最优解;要求用户必须先给出要生成的簇的数量,即k值,而不准确的k值会导致聚类的质量下降,对于“噪声”和孤立点数据较敏感,少量的该类数据可能对簇平均值产生极大的影响;此方法只有在簇平均值被定义的情况下才能使用,这对于处理符号属性的数据并不适用.

数据对象的属性:[2014]兄弟连高洛峰 PHP教程15.2.6 用PDO存取大数据对象

为了使聚类的结果更加有效,我们尝试对算法进行了改进.对于包含n个数据对象的数据库,每个数据对象对于知识挖掘来说其作用都是不同的,为了区分这些不同之处,给每个数据对象赋予一个定量值wj,也就是权值,其公式如下:

式中d(xi,xj)表示对象x,与Xi的相异度,值越近于0,两者越接近,反之越大.其聚类过程如下图.

其中每簇加权平均值的计算公式如下:

式中AWMi《1≤j≤k)表示簇Ci的加权平均值(或权平均值);t是簇Ci中对象的数量;Pi是簇Ci空间中的点;wi是Ci中数据对象的权重.

改进后的算法将原算法中使用的平均值变成了加权平均值.这样不仅可以处理数值型数据,还能处理符号型数据,对“噪声”和孤立点数据的敏感度也比原算法有所降低.

通过使用这种改进的聚类算法,根据年龄、工作时间、学历、职称、职务、科研成果、论文数量等因素对现有科研工作者进行划分,从中找出能力强、更有发展潜力的人员,以便对其进行重点管理和培养,并为学院领导组织、协调科研工作,做出相关决策提供科学依据.

三、结束语

本文通过在科研管理系统中引入数据挖掘技术,充分发掘系统积累数据中所隐含的价值,为学校领导者制定决策提供科学的依据,以提高学校科研业务管理水平和效率.

参考文献

[1]史忠植,知识发现[M].北京:清华大学出版社,2002.

[2]余建桥,张帆基于数据场改进的PAM聚类算法[J].计算机科学,2005,32(1):165-167

总结:这篇数据对象论文范文为免费优秀学术论文范文,可用于相关写作参考。

数据对象的属性引用文献:

[1] 大数据营销学论文选题 大数据营销专业论文题目怎么拟
[2] 数据挖掘博士论文题目范文 数据挖掘博士论文题目如何定
[3] 数据结构方向论文选题 数据结构论文题目怎么取
《数据挖掘在高校科研业务管理系统中的应用》word下载【免费】
数据对象的属性相关论文范文资料