电能表和大数据毕业论文格式模板范文关于电能表和大数据方面函授毕业论文范文3000字有关写作资料-论文写作网

电能表和大数据论文范文

《基于智能电表大数据的异常用电检测》

该文是关于电能表和大数据方面毕业论文格式模板范文和大数据方面毕业论文怎么写.

摘要：异常或欺诈造成的非技术性电力损失是电力公司损失的主要源头之一.智能电表的广泛使用,使得运用大数据方法实现对非技术性电力损失的有效检测成为可能.提出了一种使用监督学习进行非技术损失检测的方法.该方法基于智能仪表记录的所有信息（耗电量、异常警报等）结合辅助数据库所提供的有关每个智能电表的地理位置和技术参数的附加信息,使用最优的机器算法来深入分析用电客户的用电行为,生成异常用电客户列表.通过现场检查的结果表明,该方法能够较为准确地识别智能电网中所存在异常用电客户.

关键词：监督学习;非技术损失;智能电表;超梯度提升树

中图分类号：TP391 文献标识码：A

文章编号：1003—6199（2020）02—0177—07

Abstract：Non-technical power loss is one of the main sources of power company abnormal losses. The wide use of intelligent meters makes it possible to effectively detect non-technical power losses by using big data. A supervised learning method for non-technical loss detection is proposed. Based on all the information recorded by intelligent meters （power consumption,abnormal alarm,etc.） and the additional information about the geographical location and technical parameters of each art meter provided by the auxiliary database,the method uses the optimal machine algorithm to analyze the power consumption behior of power customers in depth,and generates a list of abnormal power users. The results of on-site inspection show that this method can accurately identify abnormal customers in art grid.

Key words：supervised learning;non-technical loss;art meter;extreme gradient boosted trees

由于电表安装错误、电表参数化错误,电表故障或窃电行为所导致的非技术电力损失（NTL）不仅会造成电力公司巨大的收入损失,而且还会影响耗电量测量的不确定性以至于影响电力系统的稳定运行[1-3].因此降低NTL是电力公司希望迫切解决的问题,由于智能电表（）已经得到普及,使得电力公司设计基于智能电表所采集的大数据来检测NTL成为可能.为此,提出了一种使用数据和辅助数据库来确定客户用电行为的各种特征,并结合有关的地理位置等附加信息,采用监督机器学习算法对这些特征进行分类,最终生成一个异常用电客户列表.通过使用实际数据对模型进行训练、验证和测试,表明該NTL检测数据模型具有优于其他分类算法的良好性能.

1 NTL检测方法

所述方法的主要目的是根据电力公司的智能电表出现异常的概率,为用电客户提供一份异常排名表.该方法中使用数据进行特征提取的算法流程如图1所示.所提取的特征主要报警数据、电能消耗数据（EC）和电气参数测量数据,以及从辅助数据库中提取的地理信息和智能电表技术参数.在对数据集进行预处理后,将这些特征作为输入插入到多个机器学习（ML）算法中,用于算法选择和评估.如果评估最优的算法性能满足所需的标准,则会保存其参数,并用于预测新客户样本,获得最终输出的客户排名列表.

2 智能电表（）数据

使用北京市供电公司提供的数据进行模型训练、验证和测试.所研究的数据客户包括工业和大型商业客户.智能电表具备每15分钟记录一次EC的性能,但为了减少数据处理量以及避免可能出现的侵犯客户隐私问题,数据采样频率降低到5次/天.所采集的数据中包含的测量内容如表1所示.

根据所采集的数据评估检测模型的性能.被检测的客户用电数据则根据不同采样周期被分成多个目标样本,如图2所示.

所使用的监督机器学习（ML）方法,通过使用这些类型客户的所有现场检查结果来验证学习结果.训练数据集是通过对被检测客户的用电数据采样而创建的.该数据集被用来训练一个ML算法,以发现异常用电的特征模式.

排名列表是为从未进行过检测或上次检测时间超过90天前的客户创建的,如图2所示.这个列表是通过使用一个经过训练的模型对那些客户用电样本进行预测而获得的.目标客户数量如表2所示.

3 数据的特征提取

使用数据中质量字节（QB）开发出可以提取有关电表故障或数据篡改特征的功能;使用数据中EC测量数据提取用电量的异常下降的特征.

3.1 从QB中提取的特征

在IEC 870-5-102协议中,QB使用8位bit來生成智能电表报警信息[4].表3显示了QB的警报类型.其中一个二进制字节被分成八个单独的bit位,每个bit代表一个警报类型.如果在测量期间（文中是一天）触发了警报,则其值将设置为1;否则,其值将为零.

3.2 从EC测量中提取的特征

对于大多数窃电相关的异常,通常可以表现为EC的突然减少[5].但是,如果EC的异常减少在检测之前开始,则无法捕捉.因此需要引入聚类技术以捕捉这种异常的用电行为.

为了避免测量误差,测量日类型t分别为工作日、周六和周日,公共假期期间所采集的测量值则被删除.特征的计算周期n分别为15天、30天、45天、60天和90天.表4显示了可以使用Zscore所得出的特征.

EC测量还可用于检测智能电表故障. 每组测量的时间戳可用于计算在最近n天内接收的测量数量.这些数据可以向ML模型通知某个的最近n天中缺失测量的数量.此外,数据还可以用于获取用电量为0 kW/h的用电客户.

由于在分析期之前已经开始的用电异常减少的情况无法采用上述办法发现,因此必须采用聚类技术提取异常用电特征.

为了发现可能的异常用电客户,使用每个客户样本中的约定功率创建客户分类.这些分类是使用k-均值聚类算法创建的.所创建的最佳分类簇数为25.

为了实现对异常客户的分类,本文采用了基于距离的分类方法[6].该方法是基于每个客户用电量生成基础用电模式,然后依据基础用电模式对客户进行分类,最后根据客户的用电模式和基础用电模式的距离来生成异常用电特征.在使用每个客户的用电量实现客户分类后,为每个月的用电分析创建了基础用电模式.每个客户分类的基本用电模式都是使用属于该分类的所有非异常客户样本的EC创建.

式2中Bki,j,t是为t日（工作日、周六、周日）客户群k的第i个月、第j年的基本用电模式.M表示属于客户群k的客户集合,其具有没有检测到异常的检查,而N是这些客户的数量.PIt、PIIt、PIIIt、PIVt和PVt为采样时间窗期间的t日的平均用电量.

在为每个客户分类创建基础用电模式之后,使用基础模型和客户用电模型之间的距离,为每个客户样本计算了以下几个特征值.

对于每个客户样本,通过平均上个月的工作日和周末的用电量,创建了两种用电模式.

其中Ct代表用电模式,PIt,PIIt,PIIIt,PIVt和PVt是上个月t日的平均用电量.

通过计算客户样本的每种用电模式与其基本用电模式之间的欧几里德和曼哈顿距离可以得出客户独有的用电特征[7,8].其中曼哈顿距离是针对每个单独的时间范围以及整天计算的,而欧几里德距离是使用所有时间窗口计算的.

其中,Mwt是时间窗w和t日的客户样本的曼哈顿距离,MTt是所有时间窗的曼哈顿总距离.

使用所有时间窗计算的欧几里得距离为：

其中,ETt是所有时间窗的总欧氏距离.使用距离测量获得的特征如表5所示.

4.3 从电气参数中提取的特征

使用电气参数（EM）开发的特征旨在主要检测诸如相位反转和分流（三相客户）之类的窃电行为.电气参数在三个时间范围（上午9点至下午6点,晚上7点至晚上10点,晚上11点至上午8点）进行采样.使用每个时间帧内的最后一个采样值来计算特征.表5显示了使用EM开发的用电特征.

4 从辅助数据库中提取的特征

由地理信息系统（GIS）等相关的应用程序和电力营销数据库中获取如表6中所述的客户用电特征.

地理信息系统（GIS）数据不仅提供了客户的位置信息,还提供了附近地区的NTL信息.设备数据库提供有关智能电表技术参数信息.营销数据库则提供了客户的用电规模、用电类型以及计费费率等相关信息.

5 模型的选择和评估

针对不同的数据集需要采用不同的分类模型能够取得更好的额分类性能.因此本研究在NTL检测方法中采用基于ML算法的评估选择最优的分类模型.为了评估ML算法的性能,将目标训练数据集分为训练数据集、验证数据集和测试数据集.验证数据集用于调整模型的超参数,而测试数据集用于评估模型的分类效果.

所使用模型选择和评估方法如图3中所示.鉴于异常用电样本的稀缺性,选择嵌套交叉验证（NCV）以尽可能多地利用可用数据[10,11].交叉测试用于模型评估阶段.

由图3可以观察到,与其他传统方法相比,NCV是一种计算成本较高的方法.然而,该方法的主要优势在于提供了对真实误差几乎没有偏差的估计.

在使用ML算法提取上述特征之前,首先对数据集进行如下几个预处理步骤：（1）将每个特征标准化为零均值和单位方差;（2）使用一个热编码将分类变量转换为数值变量;（3）连续特征的缺失值用平均值代替,离散特征的缺失值用最频繁的值代替.

对于模型选择和评估,使用5倍嵌套交叉验证.由于计算的限制,超参数的模型选择是利用数据集里面所有客户.SciKit-learn库[12]用于使用SVM、逻辑回归和K- Nearest Neighbors（KNN）拟合模型.XGBoost[13]的模型拟合是使用其python API完成的.

5.1 模型选择

在模型选择过程中,使用NCV的内环来选择在验证数据集上获得最佳结果的超参数.采用网格搜索方法对超参数进行了优化.

1）K-Nearest Neighbors（KNN）算法：KNN是最简单的分类算法之一.它在测试时使用训练数据来查找最近的邻居.在测试场景中,为了获得新客户的异常概率估计,算法会查看现场检查的结果.因此,需要对最近邻居的现场检查结果进行平均,以便计算新客户的概率.

[6]陈启鑫,郑可迪,康重庆.异常用电的检测方法：评述与展望[J]. 电力系统自动化,2018,42（17）：189-199.

[7]张小斐,耿俊成,孙玉宝. 图正则非线性岭回归模型的异常用电行为识别[J]. 计算机工程,2018,44（06）：8-12.

[8]郭志民,袁少光,孙玉宝.基于L0稀疏超图半监督学习的异常用电行为识别[J]. 计算机应用与软件,2018,35（02）：54-59.

[9]苏适,李康平,严玉廷,等,王飞,董凌. 基于密度空间聚类和引力搜索算法的居民负荷用电模式分类模型[J]. 电力自动化设备,2018,38（01）：129-136.

[10] 孙毅,李世豪,崔灿. 基于高斯核函数改进的电力用户用电数据离群点检测方法[J]. 電网技术,2018,42（05）：1595-1606.

[11] 王守相,刘天宇. 计及用电模式的居民负荷梯度提升树分类识别方法[J]. 电力系统及其自动化学报,2017,29（09）：27-33.

[12] 许刚,谈元鹏,戴腾辉. 稀疏随机森林下的用电侧异常行为模式检测[J]. 电网技术,2017,41（06）：1964-1973.

[13] 田力,向敏. 基于密度聚类技术的电力系统用电量异常分析算法[J]. 电力系统自动化,2017,41（05）：64-70.

[14] VIEGAS J L,ESTEVES P R,MELCIO R,et al. Solutions for detection of non-technical losses in the electricity grid：a review[J]. Renewable and Sustainable Energy Reviews,2017,80：1256-1268.

[15] LEITE J B,MANTOVANI J R S. Detecting and locating non-technical losses in modern distribution networks[J]. IEEE Transactions on Smart Grid,2016,9（2）：1023-1032.

本文总结,这是大学硕士与电能表和大数据本科电能表和大数据毕业论文开题报告范文和相关优秀学术职称论文参考文献资料，关于免费教你怎么写大数据方面论文范文.

电能表和大数据引用文献: