基于强化自组织映射和径向基神经网络的短期负荷预测

黄乾，马开刚，韦善阳，黎静华

（广西电力系统最优化与节能技术重点实验室（广西大学），广西壮族自治区南宁市 530004）

摘要

径向基（radial basis function，RBF）神经网络因其泛化能力强、收敛速度快的特点广泛应用于负荷预测。但传统采用K-means和自组织映射（self-organizing map，SOM）训练RBF径向基中心的方法因其全局搜索能力偏弱，仍然存在容易陷入局部最优解的问题，严重制约了RBF预测精度的提高。针对此问题，提出了一种基于强化学习（reinforcement learning，RL）改进的RBF短期负荷预测方法。强化学习通过环境的反馈不断完善搜索策略，具有非常突出的全局搜索能力。所提方法将强化学习以环境反馈修正搜索策略的机制应用于SOM，大幅增强了SOM的全局搜索能力，使其获得逼近最优的径向基中心，提高RBF负荷预测精度。以英国某地区2016年5～9月的负荷数据进行仿真实验。结果显示，与采用K-means和SOM方法训练径向基中心的RBF相比，所提的强化学习改进RBF方法的负荷预测平均相对误差分别由4.58%和4.37%降低至3.30%。

关键词 : 短期负荷预测；强化学习；径向基人工神经网络；自组织映射；径向基中心

0 引言

作为电力系统运行与规划的基础课题，短期负荷预测为经济调度、电力系统安全分析、电力市场交易等提供不可或缺的重要依据[1]。因此，精确的负荷预测技术一直受到学术界的广泛关注。

目前，众多方法已被应用到短期负荷预测，主要可分为统计类方法和元启发式方法两类。统计方法基于历史数据，应用概率统计、聚类和小波分析等方法进行负荷预测，主要包括：时间序列、模糊聚类、分类回归和小波分析等方法[2-4]。统计方法难以准确模拟多种影响因素和负荷之间的函数关系，制约了预测精度的提高。元启发式学习方法可从气象、负荷等历史数据中挖掘温度等关键气象因素和负荷的耦合关系，是目前负荷预测的主要方法和研究热点。元启发式学习预测方法的主要代表方法是人工神经网络（artificial neural network，ANN）和支持向量机（support vector machine，SVM）[5-6]。其中，径向基（radial basis function，RBF）神经网络因其泛化能力强、收敛速度快的特点[7]，广泛应用于短期负荷预测[8-10]。

尽管RBF方法在负荷预测中有着广泛的应用，但传统的RBF仍然存在算法结构难以确定和参数训练中径向基中心容易陷入局部最优解等问题，这些问题制约了RBF预测精度的提高。因此，RBF仍在不断地改进。文献[11]以样本的聚类结果初始化RBF网络的节点数和径向基中心，该方法将RBF的结构设计和解决的问题有效结合，为RBF网络结构的确定提供了重要的参考，但是无法实现在学习过程中优化RBF网络结构。在文献[11]的基础上，文献[12]提出一种依据隐含层神经元的输出和交互信息判断增减神经元的结构优化方法，实现了RBF网络结构的自主修正。然而在修正过程中径向基中心等参数的调整范围较小，容易陷入局部最优解，制约了RBF的泛化能力。文献[13]和[14]分别采用搜索性能突出的改进粒子群算法和遗传算法对RBF的参数进行优化，在更大范围内搜索最优参数。该方法在改善参数训练陷入局部最优解方面取得较好的成果，但需要昂贵的计算代价。文献[15]提出了一种引入近邻传播思想改进RBF的方法，利用近邻传播算法将样本数据进行聚类处理，以较少的计算代价获得优化的RBF径向基中心，以提高预测精度。上述RBF的改进方法有效地提升了预测精度，但是所引入的方法搜索最优径向基中心的能力有限，负荷预测的精度仍有较大的提升空间。

鉴于此，本文提出一种基于强化学习（reinforcement learning，RL）改进的RBF短期负荷预测方法。RL是最先进的人工智能代表AlphaGo Zero的核心算法之一，其优越的全局搜索能力得到了学术界和产业界的一致认可。将搜索性能突出的RL与传统应用于RBF径向基中心训练的自组织映射（self-organizing map，SOM）方法相结合，克服了SOM全局搜索能力偏弱的缺点，使其能更精确地搜索到全局最优的径向基中心。在此基础上，再统一训练整体参数，提高RBF的拟合精度，最终有效提高RBF的预测精度。

1 径向基（RBF）神经网络负荷预测方法

1.1 径向基（RBF）神经网络负荷预测模型

RBF短期负荷预测方法主要通过RBF网络拟合历史负荷、气象条件和预测日负荷的关系进行预测。RBF是一种三层前馈神经网络，由输入层、隐含层、输出层组成[13]。基于RBF网络构建的负荷预测模型结构如图1所示。

图1 RBF负荷预测模型
Fig.1 RBF load forecasting model

RBF负荷预测模型采用的是多输入单输出模式，建立24个RBF负荷预测模型分别预测一天24 h的负荷值。模型中输入层神经元用于接收样本数据包括预测日前两天和前一天的历史负荷、预测日当天的预报气温、湿度数据和预测日类型。预测日类型分为工作日和休息日，分别用1和0表示。隐含层每个神经元包含一个径向基中心每个径向基中心代表样本在某一特性上的参考系。隐含层神经元通过径向基函数计算样本与径向基中心的距离，判断样本包含该特性的大小。输出层用于对样本与径向基中心的距离和输出的负荷进行回归分析。RBF负荷预测模型的输入和输出关系为：

式中：x和y分别是样本和预测的负荷；M为隐含层神经元数；cj为第j个径向基中心；exp（·）是高斯函数，并作为径向基函数；σj为第j个径向基中心对应的高斯函数的宽度，用于调节样本与径向基中心的距离的影响程度；ωj表示第j个隐含层神经元到输出层的连接权值。

RBF负荷预测模型的参数训练是实现预测的关键环节，对预测效果的影响非常显著。模型中待确定参数包括径向基中心、高斯基函数的宽度和隐含层到输出层的连接权值。其中，径向基中心作为样本特性的参考系，很大程度决定了RBF算法对预测样本数据特性的挖掘能力。因此径向基中心的选择十分关键。RBF负荷预测模型的参数训练分为2个步骤：①首先根据样本数据训练径向基中心，确保获得较好的径向基中心作为样本特性的参考系；②运用梯度下降法统一训练全部模型参数，修正径向基中心，并拟合逼近预测目标。

1.2 传统径向基（RBF）网络预测方法的不足

传统RBF负荷预测方法主要运用K-means聚类方法[16-17]和SOM方法[18]生成历史样本的聚类中心作为径向基中心。K-means方法计算简易、收敛速度快，但对初始值比较敏感。这反映了K-means方法容易陷入局部最小解，导致聚类结果不稳定，使径向基中心难以获得最优解。SOM方法是一种竞争性的学习网络，具有非常出色的自适应学习能力，能够无监督地运用数据进行自组织学习生成聚类中心。但是SOM方法容易对样本过度学习，导致SOM方法难以搜索到全局最优解，这也限制了RBF负荷预测模型性能的提高。

为了解决负荷预测模型的径向基中心生成过程中容易陷入局部最优解的问题，本文提出了强化自组织映射（reinforcement learning-self-organizing map，RLSOM）方法生成趋向全局最优的径向基中心，以改善RBF的预测性能。

2 强化自组织映射（RL-SOM）的径向基中心训练方法

2.1 强化自组织映射（RL-SOM）基本思想

RL-SOM方法是将强化学习RL[19-20]和SOM相结合的搜索方法，其通过搜索最佳的历史样本的聚类中心作为预测模型径向基中心。RL-SOM的基本思想借鉴了SOM，以竞争神经网络中神经元的竞争来搜索最佳样本聚类中心。如图2所示，竞争神经网络中的每个竞争层神经元代表一个聚类中心。RL-SOM运用RL构建了神经元在竞争中的奖励机制。运用随机样本训练聚类中心时，竞争层神经元依据其聚类中心与随机样本的距离并根据奖励机制得到相应的奖励和聚类中心修正量。距离越小，相应神经元的竞争力越大，得到的奖励和修正量越大。通过竞争层神经元在训练中不断地竞争进化，优胜劣汰，最终选择竞争力最强的部分神经元的聚类中心作为预测模型的径向基中心。

图2 双层竞争神经网络结构
Fig.2 Competitive neural network with double layers

2.2 基于强化学习（RL）的竞争奖励机制

良好的竞争奖励机制非常有助于提高竞争网络预测模型的搜索能力。RL-SOM以RL构建了神经元的竞争奖励机制。RL是一种智能体根据环境状态制定行为策略的学习方法，目的是使智能体的行为能够在环境中获得最大的累加奖励值。强化学习系统的模型如图3所示，主要包含4个部分：环境、个体、策略、奖励。个体根据策略产生一个行动后，其所处环境状态发生了变化，由此提供奖励信号对个体的动作的好坏作评价，进而影响个体的行动策略。通过这种方式，个体在行动—评价的渐进循环探索中获得知识和经验，并且依照知识和经验改进行动方案以适应环境。

图3 强化学习系统
Fig.3 Reinforcement learning system

RL-SOM通过计算预测样本与聚类中心的距离衡量相应神经元的竞争力，并以神经元竞争力的大小体现其聚类中心所处环境的优劣。与此同时，RL-SOM以神经元的聚类中心的修正量作为奖励，依据环境的优劣判定奖励的大小。运用随机样本训练时，竞争力越大的神经元得到的修正量越大，由此增强该神经元的竞争力，激发神经元之间根据环境反馈进行竞争。同时，为了避免神经元在竞争过程中趋向一致，陷入局部最优解，RL-SOM在分配奖励过程中以概率的方式引入了随机性。竞争力越大的神经元，得到正向奖励（趋向样本的修正量）的概率越大，但不绝对获得正向奖励。随机性的引入增强了算法的全局搜索能力。最终神经元在训练中不断根据环境反馈进行学习和探索，以寻求在竞争中胜出。

整体上，RL-SOM方法生成RBF负荷预测模型径向基中心的实现主要有2个步骤：首先运用RL改进的SOM方法依据竞争奖励机制构造三层竞争神经网络的预测样本聚类模型，然后运用改进的随机梯度强化法[21]来训练模型参数，更新聚类中心，最终以竞争力最大的部分神经元的聚类中心作为径向基中心。

2.3 强化自组织映射（RL-SOM）聚类模型

运用RL改进SOM得到的RL-SOM聚类模型的结构如图4所示。模型的前两层为基于SOM聚类方法构建的双层竞争神经网络结构，其中首层为输入层，第二层为竞争层。为了更好地利用RL的贪婪机制增强模型全局最优解搜索能力，模型的最后一层利用二值伯努利公式构造输出为1或0的激活层来实现对竞争层神经元的奖励。

图4 基于RL-SOM聚类模型的结构
Fig.4 Cluster model structure based on RL-SOM

模型的输入为预测样本输入层与竞争层的连线是竞争层神经元的聚类中心。表示第j个竞争层神经元的聚类中心。同时，竞争层神经元将输入向量与聚类中心的距离映射到一个（0,1）区间的概率值pj。其距离越小，pj越大，表示相应神经元的竞争力越强。激活层神经元根据竞争层的概率和二值伯努利公式生成一个0-1变量判别竞争层神经元的激活情况。qj=1表示相应竞争层神经元被激活，此时该神经元获得正向奖励，从趋向样本的方向修正神经元的聚类中心，以增强神经元的竞争力。qj=0的情况与qj=1的情况相反。

完成RL-SOM聚类模型构建后，模型参数训练是关键环节。RL-SOM主要通过改进的随机梯度强化法[21]训练模型参数，主要步骤如下：

1）初始化各个聚类中心，计算随机样本到各个聚类中心的欧式距离

2）计算竞争层每个神经元输出的概率值f为Sigmoid函数，即然后根据该概率和二值伯努利公式生成竞争层神经元的激活情况。

3）运用改进的随机梯度强化法根据竞争奖励机制求解竞争层神经元聚类中心的更新量Δcj。

4）以式更新聚类中心，直至聚类中心的精度满足要求。

Δcij的求解是训练计算的关键。传统的随机梯度强化法[21]计算得到Δcij的公式如下：

式中：η是学习率；r是奖励；bij是强化基准值，令bij=0；g（qj,pj）是二值伯努利公式。

RL-SOM为了增强搜索全局最优解的能力，根据竞争奖励机制对式（2）中的奖励r进行改进。首先，利用RL的奖励机制设定竞争层神经元被激活将获得正的奖励信号，未被激活获得负的奖励信号，以强化神经元之间的竞争，增强RL-SOM搜索能力。其次，采用SOM的竞争机制分配奖励，以与输入样本距离最近的聚类中心的神经元作为获胜神经元。其他神经元与获胜神经元距离越近，获得奖励越大。改进后的奖励值公式如下：

式中：hj为更新邻域；σ是更新邻域的有效宽度；c*为获胜神经元的聚类中心位置。将rj代入式（2）可以得出改进后的Δcj：

通过运用随机样本不断迭代计算，直至神经元聚类中心满足精度，最终获得历史预测样本的聚类中心，作为RBF负荷预测模型的径向基中心。

3 RBF负荷预测模型的整体参数训练

完成RBF负荷预测模型径向基中心的训练后，可通过梯度下降法来统一训练模型的整体参数，拟合输入信息与预测负荷的关系。其中，整体参数训练包括修正预测模型的径向基中心c，训练高斯函数的宽度σ、隐含层到输出层的连接权值ω。构建RBF负荷预测模型的损失函数为：

式中：E和e分别为总误差和单样本误差；Rj为第j个竞争层神经元的输出；xk为第k个样本；N为样本数；yk和分别为第k个样本的目标负荷和模型计算的预测负荷。根据梯度下降法求解的c、σ和ω的迭代公式分别为：

式中：t表示第t次迭代；η、α分别是不同次迭代量的学习率。梯度下降法训练RBF参数的详细过程可参考文献[22-24]。完成RBF负荷预测模型参数训练后，将预测日的输入样本代入预测模型可计算得到预测日的预测负荷值。

4 仿真分析

4.1 算例说明

本文选取2016年英国某地区5～9月的负荷、温度和湿度的数据进行算例仿真。以5～8月的数据构建训练样本，以9月份30天的数据构建测试样本。仿真实验建立了24个RBF负荷预测模型分别预测一天24 h的负荷值。每个RBF负荷预测模型的训练样本为122个，测试样本为30个。仿真试验中通过对比不同数量聚类中心的预测效果确定径向基中心数量为10个。

为了将不同量纲的物理量归一化，采用式（10）对数据进行预处理。

式中：x'为物理量归一化后的值；xmax为物理量的最大值；xmin为物理量的最小值。

实验仿真对比了分别采用K-means方法、SOM方法和RL-SOM方法生成RBF负荷预测模型的径向基中心。采用紧密性误差（compactness error，CE）来衡量聚类效果，采用平均相对误差（mean absolute percent error，MAPE）和最大误差（maximum error，ME）来衡量预测效果，其计算方法分别为：

式中：表示各个历史预测样本到第j个聚类中心的距离的总和；是平均每个聚类中心与预测样本的总距离；反映了聚类中心位置与样本群位置的整体紧密程度。越小，说明聚类中心越接近样本群的中心，因此体现出聚类方法性能越好，同时反映了该方法得到模型径向基中心的位置越好。MAPE和ME用于反映预测精度，其数值越小，预测精度越高，预测效果越好。

4.2 仿真实验分析

4.2.1 RL-SOM方法聚类效果分析

采用K-means方法、SOM方法和RL-SOM方法生成历史预测样本的聚类中心。不同聚类算法的训练效果如表1所示。

表1 不同聚类算法的训练结果性能对比
Table 1 Performance comparison of training results of different clustering algorithms

聚类方法的紧密性误差越低，说明同类的聚合效果越好，因此反映出聚类方法的性能越好。由表1可见，RL-SOM聚类方法的紧密性误差明显优于K-means聚类方法和SOM聚类方法，说明RL-SOM聚类算法更有提取输入数据特征的优势，使聚类结果更能逼近全局的最优解，由此可提高RBF短期负荷预测算法的精度。另外，RL-SOM聚类算法的紧密性误差比传统的SOM聚类算法的低，验证了本文改进措施的有效性。

4.2.2 基于RL-SOM和RBF的负荷预测效果分析

本文分别采用K-means聚类方法、SOM聚类方法和RL-SOM聚类方法计算得到径向基中心之后，再利用梯度下降法训练RBF负荷预测模型的整体参数，以获得3个训练好的RBF负荷预测模型（分别简化表示为K-means-RBF、SOM-RBF和RLSOM-RBF）。分别以这3个负荷预测模型对9月份30天的负荷值进行预测。并选择预测误差较大且分别为工作日和非工作日的9月2日（星期五）和3日（星期六）作为典型日进行分析。K-means-RBF、SOM-RBF和RLSOMRBF方法对9月2日负荷预测的相对误差分别为7.49%、7.95%和6.79%，对9月3日负荷预测的相对误差分别为6.86%、5.95%和3.96%。图5展示了3种方法预测结果以及与实际值的对比图，图6展示了3种预测方法的相对误差。

图5 实际和预测的负荷值对比图
Fig.5 Actual and predicted load comparison

图6 K-means-RBF、SOM-RBF和RLSOM-RBF的预测相对误差图
Fig.6 Relative prediction error of K-means-RBF,SOM-RBF and RLSOM-RBF

由图5可看出，K-means-RBF、SOM-RBF和RLSOM-RBF3种方法均能较精确地预测负荷整体趋势。对比这3种方法的预测误差可看出，RLSOM-RBF方法的误差明显小于K-means-RBF方法和SOM-RBF方法。同时，K-means-RBF方法和SOM-RBF方法均出现部分预测误差（红色圆圈圈出的点）突然偏大的情况，其中K-means-RBF方法比较明显，而RLSOM-RBF方法在整体预测时间段内相对预测误差偏大的情况不明显，说明RLSOM-RBF方法的性能更稳定。由此可见，得益于径向基中心位置的改善，RLSOM-RBF方法具有了更强的数据规律挖掘和分析能力。

为了进一步验证这3种方法的预测效果，以日最大相对误差平均值、日最小相对误差平均值和平均相对误差统计了9月份的预测效果，结果如表2所示。另外，对9月份的预测误差的分布进行了统计，结果如表3所示。

表2 K-means-RBF、SOM-RBF和RLSOM-RBF的负荷预测结果比较
Table 2 Comparison of load forecasting results of K-means-RBF,SOM-RBF and RLSOM-RBF

表3 K-means-RBF、SOM-RBF和RLSOM-RBF的相对误差分布
Table 3 Relative error distribution of K-means-RBF, SOM-RBF and RLSOM-RBF

由表2数据计算可得，RLSOM-RBF方法的平均相对误差分别比K-means-RBF方法和SOM-RBF方法下降了1.07%和1.55%，预测精度分别提高了24.49%和31.96%。RLSOM-RBF方法的日最大相对误差平均值分别为K-means-RBF方法和SOM-RBF方法的89.56%和45.51%。RLSOM-RBF方法的最大相对误差显著降低。另外，从预测误差的分布来看，K-means-RBF方法、SOM-RBF方法和RLSOM-RBF方法的相对预测误差大于6%的比例分别为27.28%、27.02%和15.85%。因此，从统计数据上分析，RLSOM-RBF方法的各方面指标均显著优于K-means-RBF方法和SOM-RBF方法，与典型日预测结果的图像分析一致。这显示了RLSOMRBF方法更优越的预测性能，也验证了本文所提改进措施的合理性和有效性。

5 结论

针对传统方法在求解RBF负荷预测模型径向基中心过程中容易陷入局部最优解的问题，本文提出强化自组织映射方法，求解最优的径向基中心。强化自组织映射方法通过搜索性能突出的强化学习改善了SOM聚类方法的全局搜索性能。聚类实验结果表明，基于强化自组织映射方法求解的聚类结果的紧密性误差更低，说明了强化自组织映射方法相比传统K-means和SOM方法具有更优越的全局搜索能力，因此为RBF预测模型提供了更优的径向基中心。负荷预测仿真实验结果显示，经过本文运用强化学习改进后的RBF负荷预测方法的预测精度与传统RBF负荷预测模型相比有了显著的提高，说明了改进后的RBF负荷预测方法具有更突出的预测性能。

参考文献

[1] 牛东晓，曹树华，赵磊，等.电力负荷预测技术及其应用[M].北京：中国电力出版社，1998.

[2] 黎静华，赖昌伟.考虑气象因素的短期光伏出力预测的奇异谱分析方法[J].电力自动化设备，2018，38（5）：50-57，76.Li Jinghua, Lai Changwei.Singular spectrum analysis method for short-term photovoltaic output prediction considering meteorological factors [J].Electric Power Automation Equipment, 2018, 38（5）: 50-57, 76（in Chinese）.

[3] 赵唯嘉，张宁，康重庆，等.光伏发电出力的条件预测误差概率分布估计方法[J].电力系统自动化，2015，39（16）：8-15.Zhao Weijia, Zhang Ning, Kang Chongqing, et al.A method of probabilistic distribution of conditional forecast error for photovoltaic power generation[J].Automation of Electric Power Systems, 2015, 39（16）: 8-15（in Chinese）.

[4] 兰飞，桑川川，梁浚杰，等.基于条件Copula函数的风电功率区间预测[J].中国电机工程学报，2016，36（S1）：79-86.Lan Fei, Sang Chuanchuan, Liang Junjie, et al.Interval prediction for wind power based on conditional Copula function[J].Proceedings of the CSEE, 2016, 36（S1）: 79-86（in Chinese）.

[5] 单英浩，付青，耿炫，等.基于改进BP-SVM-ELM与粒子化SOM-LSF的微电网光伏发电组合预测方法[J].中国电机工程学报，2016，36（12）：3334-3342.Shan Yinghao, Fu Qing, Geng Xuan, et al.Combined forecasting of photovoltaic power generation in microgrid based on the improved BP-SVM-ELM and SOM-LSF with particlization[J].Proceedings of the CSEE, 2016, 36（12）: 3334-3342（in Chinese）.

[6] Malvoni M, Giorgi M G D, Congedo P M.Photovoltaic forecast based on hybrid PCA–LSSVM using dimensionality reducted data[J].Neurocomputing, 2016, 211: 72-83.

[7] 王东，史晓霞，尹交英.不同核函数的支持向量机用于空调负荷预测的对比研究[J].电工技术学报，2015（S1）：531-535.Wang Dong, Shi Xiaoxia, Yin Jiaoying.Prediction on hourly load of air conditioning by RBF support vector machine[J].Transactions of China Electrotechnical Society, 2015（S1）: 531-535（in Chinese）.

[8] 彭显刚，胡松峰，吕大勇.基于RBF神经网络的短期负荷预测方法综述[J].电力系统保护与控制，2011，39（17）：144-148.Peng Xiangang, Hu Songfeng, Lyu Dayong.Review on grid short-term load forecasting methods based on RBF neural network power[J].System Protection and Control, 2011,39（17）: 144-148（in Chinese）.

[9] 何耀耀，许启发，杨善林，等.基于RBF神经网络分位数回归的电力负荷概率密度预测方法[J].中国电机工程学报，2013，33（1）：93-98.He Yaoyao, Xu Qifa, Yang Shanlin, et al.A power load probability density forecasting method based on RBF neural network quantile regression[J].Proceedings of the CSEE,2013, 33（1）: 93-98（in Chinese）.

[10] 张智晟，于道林.考虑需求响应综合影响因素的RBF-NN短期负荷预测模型[J].中国电机工程学报，2018，36（6）：1631-1638.Zhang Zhisheng, Yu Daolin.RBF-NN based short-term load forecasting model considering comprehensive factors affecting demand response[J].Proceedings of the CSEE, 2018, 36（6）:1631-1638（in Chinese）.

[11] 付强，陈特放，朱佼佼.采用自组织RBF网络算法的变压器故障诊断[J].高电压技术，2012，38（6）：1368-1375.Fu Qiang, Chen Tefang, Zhu Jiaojiao.Transformer fault diagnosis using self-adaptive RBF neural network algorithm[J].High Voltage Engineering, 2012, 38（6）: 1368-1375（in Chinese）.

[12] 韩红桂，乔俊飞，薄迎春.基于信息强度的RBF神经网络结构设计研究[J].自动化学报，2012，38（7）：1083-1090.Han Honggui, Qiao Junfei, Bo Yingchun.On structure design for RBF neural network based on information strength[J].Acta Automatice Sinice, 2012, 38（7）: 1083-1090（in Chinese）.

[13] 张毅，姜思博，李铮.改进的遗传灰色RBF模型的短期电力负荷预测[J].电测与仪表，2014，51（5）：1-4.Zhang Yi, Jiang Sibo, Li Zheng.A gray RBF model improved by genetic algorithm for short-term load forecasting[J].Electrical Measurement ＆ Instrumentation, 2014, 51（5）: 1-4（in Chinese）.

[14] 师彪，李郁侠，于新花，等.基于改进粒子群-径向基神经网络模型的短期电力负荷预测[J].电网技术，2009，33（17）：180-184.Shi Biao, Li Yuxia, Yu Xinhua, et al.Short-term load forecasting based on modified particle swarm optimization and radial basis function neural network model[J].Power System Technology, 2009, 33（17）: 180-184（in Chinese）.

[15] 回立川，于淼，梁芷睿.应用近邻传播算法改进RBF的短期负荷预测[J].电力系统及其自动化学报，2015，27（1）：69-73.Hui Lichuan, Yu Miao, Liang Zhirui.Research on electrical load short-term forecasting via radial basis function neural network designed by affinity propagation[J].Proceedings of the CSU-EPSA, 2015, 27（1）: 69-73（in Chinese）.

[16] 黄震华，向阳，张波，等.一种进行K-Means聚类的有效方法[J].模式识别与人工智能，2010，23（4）：516-521.Huang Zhenhua, Xiang Yang, Zhang Bo, et al.An efficient method for K-means clustering[J].PR&AI, 2010, 23（4）: 516-521（in Chinese）.

[17] 高山，单渊达.基于径向基函数网络的短期负荷预测[J].电力系统自动化，1999，23（5）：31-34.Gao Shan, Shan Yuanda.A new short-term load forecasting algorithm based on radial basis function network [J].Automation of Electric Power Systems, 1999, 23（5）: 31-34（in Chinese）.

[18] 李智勇，吴晶莹，吴为麟，等.基于自组织映射神经网络的电力用户负荷曲线聚类[J].电力系统自动化，2008，32（15）：66-70.Li Zhiyong, Wu Jingying, Wu Weilin, et al.Power customers load profile clustering using the SOM neural network[J].Automation of Electric Power Systems, 2008, 32（15）: 66-70（in Chinese）.

[19] 刘威，张东霞，王新迎，等.基于深度强化学习的电网紧急控制策略研究[J].中国电机工程学报，2018，38（1）： 109-119，347.Liu Wei, Zhang Dongxia, Wang Xinying, et al.Research on grid emergency control strategy based on deepening reinforcement learning[J].Proceedings of the CSEE, 2018,38（1）: 109-119, 347（in Chinese）.

[20] 韩传家，张孝顺，余涛，等.风险调度中引入知识迁移的细菌觅食强化学习优化算法[J].电力系统自动化，2017，41（8）： 69-77，97.Han Chuanjia, Zhang Xiaoshun, Yu Tao, et al.Bacterial foraging reinforcement learning optimization algorithm with knowledge transfer introduced into risk scheduling[J].Automation of Electric Power Systems, 2017, 41（8）: 69-77,97（in Chinese）.

[21] Williams R J.Simple statistical gradient-following algorithms for connectionist reinforcement learning[J].Machine Learning,1992, 8（3-4）: 229-256.

[22] 郭跃东，宋旭东.梯度下降法的分析和改进[J].科技展望，2016，26（15）：115-117.Guo Yuedong, Song Xudong.Analysis and improvement of gradient descent method [J].Technology Outlook, 2016, 26（15）: 115-117（in Chinese）.

[23] 黎静华，黄乾，韦善阳，等.基于S-BGD和梯度累积策略的改进深度学习方法及其在光伏出力预测中的应用[J].电网技术，2017，41（10）：3292-3300.Li Jinghua, Huang Qian, Wei Shanyang, et al.Improved deep learning algorithm based on S-BGD and gradient pile strategy and its application in PV power forecasting[J].Power System Technology, 2017, 41（10）: 3292-3300 （in Chinese）.

[24] 刘颖超，张纪元.梯度下降法[J].南京理工大学学报，1993（2）：12-16.Liu Yingchao, Zhang Jiyuan.Gradient descent method [J].Journal of Nanjing University of Science and Technology,1993（2）: 12-16（in Chinese）.

A Short-term Load Forecasting Method Based on Reinforcement Self-organizing Map and Radial Basis Function Neural Network

HUANG Qian, MA Kaigang, WEI Shanyang, LI Jinghua
（Guangxi Key Laboratory of Power System Optimization and Energy-saving Technology （Guangxi University）,Nanning 530004, Guangxi Zhuang Autonomous Region, China）

Abstract: Radial basis function （RBF）neural network is widely applied in short-term load forecasting because of its strong generalization ability and fast convergence speed.However,the traditional method of using K-means and self-organizing map （SOM）for the training of the radial basis center of RBF possess certain shortcomings.Due to the weak global searching capability, this method falls into local optimal solution easily,which seriously restricts the improvement of the precision of load forecasting of RBF.To relieve the restriction, an improved RBF based on reinforcement learning （RL）is proposed for short-term load forecasting.The proposed method dramatically enhances the global searching capability of SOM by applying the feedback-correction mechanism of RL in SOM, which drives it to approach to the optimal radical basis center.As a result, the precision of short-term load forecasting of RBF is improved.To verify the proposed method, simulation case is carried out based on the load data of a certain area in UK from May to September 2016.Comparing with K-means method and SOM method, the simulation results show that the average relative error is notably reduced by using proposed method, which demonstrates the correctness and superiority of the proposed method.

Keywords: short-term load forecasting; reinforcement learning;RBF neural network; self-organizing map; radial basis center

National Key Research and Development Program of China（2016YFB0900100）.

文章编号：2096-5125 （2019）01-0070-08

中图分类号：TM714；TP183

文献标志码：A

DOI：10.19705/j.cnki.issn2096-5125.2019.01.009

基金项目：国家重点研发计划（2016YFB0900100）。

收稿日期：2018-08-13；

修回日期：2018-11-01。

作者简介：

黄乾

黄乾（1989），男，博士研究生，主要研究方向为高比例可再生能源电力系统预测，E-mail：q.huang.gxu@qq.com。

马开刚（1996），男，硕士研究生，主要研究方向为人工智能在电力系统的应用，E-mail：makaigang1996@163.com。

韦善阳（1993），男，硕士研究生，主要研究方向为高比例可再生能源电力系统预测，E-mail：weisy.gxu@qq.com。

黎静华（1982），女，博士，教授，通信作者，主要研究方向为电力系统优化运行与控制、大规模风电并网技术等，E-mail：happyjinghua@ 163.com。

（责任编辑张宇）