决策树和数据分析毕业论文提纲范文关于决策树和数据分析毕业论文开题报告范文2万字有关写作资料-论文写作网

决策树和数据分析论文范文

【摘要】大数据时代的海量信息对审计工作的强度和技术性提出了更高的要求,如何对审计数据进行分析,是审计人员面临的挑战.文章以Weka分析软件作为实验平台,分别应用决策树分类算法中典型的ID3算法和.5算法,以UCI数据库中的Balloons数据集为例进行分类算法预测功能的阐述,并结合实例,提出决策树算法在审计中的有效应用.随后探讨了审计数据分析的发展趋势：云计算审计应用;开源机器学习算法融入审计;云安全审计;非结构化数据文本挖掘审计;特高压、新能源汽车充电桩、5G网络、大数据中心、人工智能等为代表的新基建数据挖掘应用等.

【关键词】数据挖掘; 决策树; 审计数据分析; Weka软件

【中图分类号】 F239.1 【文献标识码】 A 【文章编号】 1004-5937（2020）13-0139-05

一、引言

如今,我们正处于大数据的时代,面对数量庞大、内容和存储方式多种多样的信息资产,审计工作者需要使用全新的处理模式才能够更加迅速地进行数据分析,高效地发现更多有价值的审计线索.大数据时代海量数据的不断增加,一方面给审计工作提供了更加坚实的基础,另一方面,对审计工作的强度和技术都提出了更高的要求.如何运用日益增长的数据?如何运用更多的模型和算法为审计服务?这些问题都将成为审计部门以及审计人员面临的挑战.

处理大数据最为实用的审计方法之一就是发掘型分析审计.发掘型分析是指用户通过对大量数据的分析研究,从中找出隐藏的规律,从而对数据或行为未来的趋势进行预测的一种数据分析模式[1].而要想实现发掘型分析,目前最为有效的手段就是数据挖掘技术.数据挖掘一共有四类比较常用的分析方法,分别是聚簇分析、分类分析、序列分析和关联分析,而决策树则是最常见的分类方法.我们将数据进行分类主要是为了根据每组数据不同的属性将它们归类到不同的分组中,分析每个分组中各类数据的不同属性,找出符合该数据属性的模型,再建立相对应的模型对已有的数据进行分析以及对新数据未来的趋势进行预测.

本研究简要介绍了决策树算法及决策树算法分类模型实例,讨论了该算法在审计中的应用,探讨了数据挖掘技术在对审计数据进行分析的过程中应用程度的发展趋势.

二、决策树算法简介

决策树,是一种跟多叉树很相似的树型结构,又称判定树,主要对数据的离散或连续属性进行分析并進行建模及预测[2].决策树是按照从上到下依次进行分类的方法构造的模型,从最基础的训练元组集以及与之相关的类标号进行分类,训练数据集随着决策树模型的构建,以递归的方式被分成了几个小的子集.决策树内部的每一个结点都代表了利用其某个属性进行相关的试验,而从结点衍生出的每一个分支则意为在该试验基础上的属性结果的输出,每一个叶结点代表的是所存储的一个类标号的信息.其基本思想是：如果训练样本集中的所有样本都属于同一种类型,那么便将这个样本集作为一个叶结点,且标识为该类;如果不是,那么就先根据某种方法确定一个属性进行测试,按照测试出的不同的值把整个样本集划分为多个子集,形成内部结点,这样就能够保证在同一个子集上,不同的样本能具有相同的属性值.接着反复处理各个子集,直到得到满意或满足条件的分类属性即停止.最后,在所有的样本中间,信息量最大的属性成为根结点,而中间结点则是以此结点作为树根的分支中所包括的样本中信息量最大的那一个属性[2].

决策树算法可以针对不同类别的因变量,从多个不同的预测变量中,预测出其中单个变量的未来趋势的变化.目前决策树的算法有很多种,本文采用的是其中最经典的两种算法——ID3算法和.5算法.

三、设计思路与方案概述

(一)实验基本方案

1.建立模型,描述预定数据分类集和概念集.假设每一个元组都归于一个预先定义好的类,通过类标号属性进行判定.在典型情况下,学习模型可以通过判定树、分类规则或者数学公式的方法建立[3].

2.使用模型,对将来的或未知的对象进行分类.将每一个测试实例的学习模型类和已知的类标号进行比较,在分析对比的基础上合理预测相关信息.学习模型在预先已给测试数据集上的正确率等于准确被模型进行分类的实例数占测试实例总数的百分比.测试数据集必须具有独立性,一定要避免产生“过分适应数据”的不良情况.

实验以Weka软件作为实践平台对数据进行挖掘处理,分别对ID3算法、.5算法的分析预测性能进行总结评价.

(二)实验步骤

1.数据准备.使用对不同的试验条件做出T/F判断的数据集Balloons.arff,数据集包含4个属性,分别是Color、Size、Act、Age共76个实例,如表1所示.

取“Balloons.arff”文件的76条数据中前50条数据作为训练数据集,另存为文件“Balloons-train”,取后26条数据作为测试数据集,另存为文件“Balloons-test”.

2.训练过程.打开Weka软件,用“Explorer”打开训练集,观察训练集是否已按照要求进行处理.切换到“Classify”选项卡的“ID3”或“J48”选项,看左中的“Test Option”.为确保生成模型的准确性而不至于出现过拟合（overfitting）的现象,有必要采用10折交叉验证（10-fold cross validation）来选择和评估模型[4],点击“Start”按钮生成Bayes模型.该模型关于误差或分析等结果将在“Classifier output”中生成展示.

3.测试过程.必须保证训练数据集及待测数据集中各属性的设置相同,在“Test Opion”中选择“Supplied test set”作为测试文件,观察预测的结果以及混淆矩阵.