基于模糊Q学习的自能源综合能量管理策略

张宁1*，孙秋野1, 2，马大中1

（1．东北大学信息科学与工程学院，辽宁省沈阳市 110819；2．东北大学流程工业国家重点实验室，辽宁省沈阳市 110819）

摘要

随着用户在综合能源系统中的参与度以及系统复杂度的提升，传统的能源枢纽已无法完全满足需求。同时，如何解决环境与负荷的不确定性以及提升能量单元的自我调节能力是亟需考虑的因素。基于此，提出了具备全双工与分布式特性的自能源单元，构建了一种针对多种不确定性以及需求侧响应的自能源综合调度模型并提出相应的能量管理策略。相较于其他模型，所提自能源综合调度模型全面描述了自能源在能源互联网中的运行特点。进一步，采用对环境模型需求较低的增强学习算法，引入不确定性作为状态指标并进行模糊离散化处理，使其可以在无前期预测的情况下解决模型中的多种不确定性带来的影响。仿真结果证明，所提综合能量管理策略具有较高的效率和更好的适用性，能有效实现不确定环境下自能源的最优调配。

关键词 : 自能源；能量管理；增强学习；需求侧响应；不确定性

0 引言

能源是整个世界经济发展的基础，人类社会的不断发展与人类对能源的开发利用是密切相关的。纵观人类的发展史，人类历史上每一次产生经济突飞猛进都是从开发利用新型能源来开始的。能源危机和环境污染的双重压力促使人们对现有的能源消费模式进行反思，并开始对电、气、热等各种形式能源的综合利用进行研究[1-3]。目前，第三次工业革命正在世界范围内展开，而能源互联网作为新一代能源系统，是第三次工业革命的核心之一[4]。与此同时，中国也提出了“互联网+”智慧能源的行动计划[5]，描绘了对能源互联网的展望。同时指出充分考虑多种不同形式能源如电、气、热能之间的关系是构建能源互联网的关键基础[6-11]。

纵观关于能源互联网的国内外研究现状，可以将针对能源互联网的研究划为三种：全球能源互联网、广义能源互联网和狭义能源互联网。针对全球能源互联网的研究以中国国家电网有限公司[12]为代表，提出全球能源互联网由跨洲、跨国的骨干网架和各国各个电压等级电网组成，连接“一极一道”（北极、赤道）大型能源基地。能够适应各种集中式、分布式电源，同时能够将风力发电、光伏发电、潮汐发电等绿色清洁能源输送到各类用户，是服务规模广、配置能力强、安全可靠性高、绿色低碳的全球能源配置平台。全球能源互联网应该包含网架坚强、广泛互联、高度智能、开放互动的特性。全球能源互联网概念的提出是从宏观角度出发，构建一个以地球为单元的全球地域的能源互联系统。相较于全球能源互联网，广义能源互联网更多地涉及分布式能源与能源的互联概念或能源互联网相关研究可能涉及到的对应技术的讨论[13]。例如，文献[14]提出了能源互联网的初步定义，对能源互联网的组成与基本架构进行了概述，同时讨论了能源互联网相关领域的核心问题与未来可能会面临的问题。广义能源互联网以讨论能源互联概念与其所关联的技术为主，在如何实现相关技术方面涉及较少；而狭义能源互联网在分析能源互联网内部结构之下，以能源互联网技术实现为主[15]。

能源互联网中存在着多种能量单元来实现能源的存储、转化等功能。随着研究的发展，能量单元也从能量枢纽发展到具备全双工特性的自能源[16]。文献[17]中提出了自能源的模型并且讨论了自能源在能源互联网中的应用。文献[18]提出了面向终端用户的家庭自能源框架，同时提出分布式双链算法来解决所提框架的电热耦合问题。文献[19]提出了四种自能源的运行模型并且提出了针对自能源的滑膜控制方法。文献[20]提出了针对储能的自能源模型并在此模型的基础上给出了相应的储能最优控制策略。

由于能源互联网内设备复杂，能量之间的相互转化存在强耦合性。因此一部分研究开始使用增强学习算法来解决能源互联网中能量管理问题。文献[21]提出了基于多智能体的分布式强化学习算法，通过该算法来实现最优无功分配。文献[22]提出了一种考虑新能源不确定性的人工神经网络-遗传算法（ANN-GA）的智能调度方案，所提调度方案降低了网络在负载波峰处的能源需求，最大程度上地使用新能源发电，同时减少了用户对电网供给的依赖。文献[23]将增强学习技术与决策支持系统进行有效的结合，在此基础上提出了基于智能决策支持的发电集团最优报价决策方案。

上述增强学习方法更多解决的是电能相关的问题，对多能耦合带来的问题讨论较少。由于自能源本身的特殊性以及新能源的不确定性使得传统的增强学习算法无法使用。同时对自能源的相关研究也并没有挖掘出自能源在能源互联网中的全部潜力。因此，本文在自能源传统模型的基础上，构建了一种针对多种不确定性以及需求侧响应的自能源综合调度模型来全面描述自能源在能源互联网中的运行特点。并在模型的基础上，采用对环境模型需求较低的增强学习算法，引入不确定性作为状态指标并进行模糊离散化处理，使得所提算法可以满足自能源能量管理需求。仿真结果证明，所提综合能量管理策略能有效实现不确定环境下自能源的最优调配。

1 自能源

在互联网中，存在信息传递单元“自媒体”。受到这一概念的启发，能源互联网中部分具备能源交换能力的区域可以被定义为“自能源”。自能源不再单一地是能源的接收者，同时还是能源的供应者。与传统能源系统进行比较，自能源的强耦合特性与互补特性使得自能源可以将不同种类的能源转换成自己所需的能源。全双工特性是自能源与现有的能源单元能源传输方式的最大区别。自能源的各个能源端口的传输特性是半双工传输，由于自能源存在多个能源端口且不同能源的传输过程在时间上具有同步性，在某一时刻自能源的能源端口传输方向可能会存在不同。所以，自能源在运行时可以实现能源的双向传递。在能源市场交易的背景下，自能源可能同时担任买家和卖家两种角色。这时，目前已有的能源交易方式将无法适用，全双工传输特性为能源市场交易相关研究提供了一种新的思路。

图1 自能源结构
Fig.1 Structure of We-energy

在自能源运行过程中，其运行状态会根据能源的供需情况以及能源互联网中各种能源的价格来确定，从而实现网络的能源平衡以及自身利益的最大化。图1是一个包含了电、热、天然气能源的自能源结构。由图1可知，电、热、天然气负荷不仅可以由网络侧提供能源，也可以通过本地的能源生产装置提供能源。生产的多余能源不但可以存储到储能设备，还能通过能源端口与各能源网络实现能源交换。自能源的能源输入与能源输出之间的关系可以被表示为：

式中：ω'i 为自能源与各个网络之间的能源交互；ωi表示的是自能源与负载侧之间的能源交互；λi为对应自能量转化矩阵。能量转化矩阵中的各个元素分别代表了对应设备的转化效率以及能源的分配系数。

2 自能源综合调度模型

对于自能源来说，由于其内部设备的耦合特性与自身的全双工特性，如何实现其最优能源调度便是自能源研究的重要方向。基于此，本文提出针对多种不确定性以及需求侧响应的自能源综合调度模型。

2.1 目标函数

由于自能源具有自主性，因此可以根据市场价格与负载情况实施多种能源的需求侧相应。在本文所提的自能源综合调度模型中，目标函数是基于自能源与各网络之间的交易、能源市场的价格以及自能源内部的需求侧响应提出的，可以表示为：

式中：Prbuy与Prsell分别表示自能源从能源网络购买能源的价格与自能源向能源网络出售能源的价格；Prres表示自能源进行需求侧响应时的花费；Pbuy与Psell分别表示自能源从能源网络购买的能源量与自能源向能源网络出售的能源量；Pshdo与Pshup分别表示自能源在进行需求侧响应时关闭与开通的负载；b表示对应的能源类型，b∈e, g, h分别表示电能、天然气、热能3种能源；t表示一天中对应的时间。目标函数为自能源在一天里的最小运行费用。

2.2 约束条件

自能源综合调度模型包含了多个设备，例如储能及热电联产装置，同时自能源具备的自主性又可以实现需求侧响应等功能，因此综合调度模型中存在以下约束条件。

2.2.1 新能源约束

新能源由于其资源丰富，对环境污染小等特点，已成为自能源中的重要组成成分。基于自能源私营化、通俗化、普遍化等特点，光伏发电与风力发电是自能源中常见的新能源发电形式。由于这两种类型的新能源发电成本较低，因此通常情况下不考虑进入自能源的运行成本中。新能源发电存在一定的不确定性，因此针对新能源发电的约束条件可以表示为：

式中Pnew(t)与 pagenumber_ebook=16,pagenumber_book=532 分别表示新能源在t时刻的发电量与自能源的新能源发电上限。

2.2.2 需求约束

对于负载需求来说，自能源首先要保证的就是供需平衡。自能源中的负载需求由转化设备、储能设备以及能量生产设备共同满足。对于图1所示的自能源模型，各种能源类型的负载需要满足的约束条件为：

式中：De(t)、Dh(t)和Dg(t)分别代表在t时刻自能源的电、热、气3种负载实际需求；k代表对应能源的分配系数，其上标代表分配的设备，下标代表对应能量的来源，例如 pagenumber_ebook=16,pagenumber_book=532 表示气井生产出的天然气输送向CHP的分配系数；Pwell(t)表示在t时刻气井生产的天然气的量；、和分别表示电热锅炉的产热效率、CHP的产电效率与CHP的产热效率；Qe(t)、Qh(t)和Qg(t)分别代表在t时刻自能源内电、热、气3种储能设备的存储量变化。当Qe(t)、Qh(t)和Qg(t)为正时，代表储能设备在释放能量，相反，当其为负值时，代表储能设备在吸收能量。这时储能设备可以等效为负载需求的一部分，对应的储能分配系数k值为1。公式（4）描述了自能源通过新能源发电、储能装置、网络购电以及CHP设备的产电来满足电负载的需求，相比于电负载，热负载除了储能装置与网络购热，更多来源于能量转化设备如电热锅炉、CHP等设备。由于天然气属于一次能源，所以在自能源中天然气一般情况下无法通过转化设备产生。对于天然气负载来说，自能源会通过储气罐、气井来满足一部分负载，在有需求时则会通过天然气网络购买。

2.2.3 设备约束

自能源中包含着多种设备，这些内部设备具备生产、转化、存储等功能。不同设备存在着不同的运行特点与运行约束。如图1所示，自能源中的生产设备除了新能源发电外，还包括气井。新能源设备的约束条件在公式（3）中已经描述。类似的气井约束条件为：

式中 pagenumber_ebook=17,pagenumber_book=533 表示气井在单位时间里所能生产的最大天然气量。

自能源内的能量转化设备包括电热锅炉、CHP等。这类转化设备可以将某种能量形式转化为其他种类的能量形式。对于如图1所示的自能源模型来说，其内部转化设备的约束条件为：

式中：RCHP(t)与 pagenumber_ebook=17,pagenumber_book=533 分别表示在t时刻输入进CHP的天然气量与CHP的最大进气量；同理，Rboiler(t)与分别代表在t时刻输入进电热锅炉的电量与电热锅炉的最大输入功率。根据公式（10）、（11）可知，CHP工作时的天然气输入来自于天然气网络、气井与储气装置。而电热锅炉的供电则来自于新能源发电、电网与储能装置。

自能源中包含了多种能源的储能设备。储能设备受到单位时间充放能源容量与储能装置最大存储容量的限制，其约束条件为：

式中： pagenumber_ebook=17,pagenumber_book=533 与分别表示对应能源的储能设备最大充、放能源容量；SCb(t)表示在t时刻自能源内对应存储设备的存储量；与分别表示对应存储设备所允许的最小存储量与最大存储量。考虑到存储在储能设备里的能源会随时间推移逐渐损失，储能设备参数Qb(t)与SCb(t)之间的关系为：

式中lb表示对应设备的损失因子。公式（14）描述了当前时刻储能设备里的能源量取决于上一时刻设备内的容量与当前时刻设备的充放量。

2.2.4 需求侧响应约束

相较于传统负载，自能源内部的负荷需求具备一定程度的灵活性。这些灵活负载可以根据当前能源市场价格与自能源的调节要求来改变自身的需求时间，在能源价格高或负载需求量大时暂停使用，在低价或负载需求低时再恢复。相较于传统系统的需求侧响应方式，自能源内部多种负载均可以参与需求侧响应。自能源需求侧响应的约束条件为：

式中：Lb(t)表示在不考虑需求侧响应的情况下自能源t时刻对应能量形式的负载需求； pagenumber_ebook=17,pagenumber_book=533 与分别表示对应能量类型中灵活负载在总负载中的占比；与?用来判断当前时刻是否可以暂停或开通灵活负载，且与的数值只能取0或1。公式（15）表示灵活负载在参与需求侧响应时并不是不再需求能源，而只是利用自身的灵活性改变了需求能源的时刻。因此，在一天之内，所有暂停需求的灵活负载均需要在其余的某个时间段恢复对能源的需求。根据公式（16）与（17），自能源内部的负载也不能无节制地参与需求侧响应，只有具备特殊性质的灵活负载才可以在不影响安全性等因素的前提下进行响应。

由于 pagenumber_ebook=17,pagenumber_book=533 与取值的限制，根据公式（18），同一种能量形式的需求侧响应类型只能有一种。自能源在t时刻的实际负载Db(t)与总负载Lb(t)之间的关系为：

3 基于模糊Q学习的能量管理策略

自能源作为能量互联网中重要组成部分，虽然其内部的多种设备可以使自能源将不同种类的能源转换成所需的能源。但同样地，自能源内部设备的强耦合特性与复杂型也为针对自能源的综合能量调度带来了极大的困难。由于本文所提综合调度模型的内部参数为连续值，动作与状态空间过大，基于查表和函数近似的传统Q值迭代算法在连续空间问题时迭代速度慢，且对于连续行为策略难以求解，所以并不能直接用来得到所需综合能源管理策略。

如何设计状态与动作变量将所提实际问题模型构建成相应的马尔科夫决策过程一直是增强学习算法在应用过程中的难题。为解决此类问题，针对自能源综合调度模型，本文将自能源内部如CHP、电热锅炉等可控设备的输出功率变化量ΔP作为动作变量，设备的实际输入输出功率P则作为算法的状态变量。而所提自能源综合调度模型决定了动作变量与状态变量之间的关系。同时，由于Q值迭代算法无模型的特点，将新能源连续两个时段的发电量同时作为状态变量加入到算法中，通过算法的学习来解决新能源不确定性所带来的问题。

在针对所提模型设计好相应的动作与状态变量后，为解决模型中连续动作难以求解的问题，本文在传统Q值函数中加入双层模糊推理来得到连续空间的Q值函数，利用Q值函数得到的Q值来选取最优动作，得到所需综合能源管理策略。第一层以状态为输入，通过模糊推理得到连续动作作为输出；第二层将第一层获得的连续动作作为输入，通过模糊推理得到连续动作Q值分量并将其作为输出。结合所提双层模糊推理系统，得到对应Q值函数。

第一层模糊推理规则如下：

其中：x为状态变量；ur, j为第r条模糊规则中的对应离散动作；qr,j为第r条模糊规则中的对应离散动作的Q值分量。规则激活强度可以表示为：

在被状态激活的规则中，根据Q值分量的大小，本文采用贪婪动作策略从离散动作中选取对应的动作，被选取的动作被称为激活动作 pagenumber_ebook=18,pagenumber_book=534 。结合公式（20），连续动作可以被表示为：

C(x)被称为连续动作并非是因为状态可以自由选择连续动作空间中的动作，而是因为C(x)的变化是随着状态变量连续的。

第二层模糊推理规则如下：

第二层模糊推理规则依赖于第一层的规则，其中vr为模糊集，它以第一层中的模糊动作为模糊中心并用隶属度函数σvr,j(u)描述。将第一层获得的连续动作作为第二层的输入，可以激活第二层中的规则。通过规则的输出，可以得到对应第一层中的Q值分量：

由公式（23）可得，第一层激活规则所得到的Q值分量为 pagenumber_ebook=18,pagenumber_book=534 对于所有的激活规则，可以得到状态下执行连续动作的Q值为：

由式（25）可以发现，Q值的大小取决于两层模糊推理中模糊集与共同变量θr, j。根据Q值函数得到对应的Q值，从而决定自能源相应动作，得到所需综合能源管理策略。

4 仿真分析

本仿真中所用到的自能源结构类似于图1，但其中没有包括气井。自能源内部设备中可以提供能量供给的有新能源发电。储能设备包括电、气、热3种储能元件。转换设备包括由为燃气轮机构成的CHP、固态变压器、热交换器与电热锅炉。自能源连接电、气、热3个网络来满足内部设备与负载。

表1表示CHP、电热锅炉等自能源内部设备的容量与转化效率。其中热交换器起到使热量从热流体传递到冷流体的作用，被用来连接CHP与热管道。由于其转换效率接近100%，因此不在表中赘述。表2表示自能源中储能设备的参数，包括最大充放电容量、存储能量的上下限以及单位时间储能设备中内部能量的损失因数。通常储气装置密闭性较好，在小时级的时间尺度下不会发生气体泄漏，因此不考虑能量损失。表3表示不同时间段能量价格的变化。对于热力网络与天然气网络来说，其能源供给与收购价格在一天中是保持不变的。因此唯一会随着时段价格分时变化的网络为电力网络。其中0:00—7:00、23:00—24:00为低谷时段；7:00—9:00、19:00—23:00是一天中的价格中间时段；峰值时段为9:00—19:00。在本仿真中电能与热能的功率单位为kW，天然气燃烧的功率单位为m3/h。

表1 转换设备的参数与容量
Table1 Conversion efficiencies and capacities of converters

表2 储能设备参数
Table2 Parameters of different storages

表3 能源价格Table3 Energy prices on different load periods

包括风力发电与光伏发电在内的新能源在24小时内的发电量如图2所示。电、热、天然气3种类型的负载在一天内的变化如图3所示。结合图3与表3，可以看出价格的时段变化基本与负载的变化相吻合。每立方米天然气充分燃烧可以产生10 kWh能量，在本仿真中，灵活负载的占比为总负载的5%，用来研究所提能量管理策略的有效性。

图2 新能源设备发电
Fig.2 The generation of wind and solar power

图3 自能源负载需求
Fig.3 The change of electricity, heat and gas loads

如图4所示，在一天中的绝大部分时间里，自能源都在购买某一种能源的同时向对应网络售卖另一种能源。因此仿真结果可以清晰证明自能源的全双工特性。由于最终所得能量管理策略控制自能源在8:00—9:00时段储电设备获取能量，因此自能源在该时段需要从能源网络购买电能，而周围时段则向网络侧出售电能。在太阳能发电量不充足的时间里，自能源基本处在购电的状态。当新能源供给充足时，自能源开始向网络侧出售一部分电能。同时由于在波峰时段，购电与售电价格较高。在此时间段，自能源中新能源发电在满足负载的情况下，优先向电网出售能源。空缺的热能则向热力网络购买，从而达到经济最优。在所示参数情况下，最终自能源运行一天的最优花费为3303.6元。

图4 自能源24 h网络购买量
Fig.4 The energy exchange with electricity, heat and gas networks for WE

图5表示能源互联网中不具备全双工特性的能量单元Prosumer在相同条件下的运行结果。由于能量单元内部生产的能源容量较小，在各个时段均无法满足负载的需求。因此Prosumer需要24 h从网络中购买能源而无法向网络中出售能源。在这种情况下，对比图4可以发现，在价格低谷期，电价与气价相对于热力价格低。因此Prosumer并不从热力网络中购买能源，而是全部由转化设备生成。同样由于Prosumer无法在购买能源的同时出售能源，因此相对于自能源，在大部分时段上能源的购买量有一定程度的下降。最终Prosumer运行一天的最优花费为4580.4元。相较于自能源来说，花费上涨了38.7%。由此可见，自能源的全双工特性为系统的经济性提供了较大的改进，也为能源市场提供了新型交易思路。

图5 Prosumer 24 h网络购买量
Fig.5 The energy exchange with electricity, heat and gas networks for Prosumer

图6表示算法在求解过程中的迭代次数，纵坐标为自能源模型在12:00—13:00时段的奖惩值。如图所示，算法在迭代350次左右开始逐渐收敛，但依然存在较大的偏差值。迭代600次左右，算法接近收敛，证明算法可以解决所提模型的能源管理问题，提供所需综合能源管理策略。

图6 模糊Q学习算法迭代次数
Fig.6 Number of fuzzy Q-learning algorithm iterations

5 结论

本文以自能源为模型基础，提出自能源综合调度模型与相应的能量管理策略，着重解决了两个方面的难点：①自能源综合能源管理中不确定性与需求侧响应带来的影响；②利用增强学习得到所需综合能源管理策略。

本文结合自能源自身特点，通过物理性质抽象，建立了针对多种不确定性以及需求侧响应的自能源综合调度模型。为了得到所建立模型的综合能源管理策略，针对模型设立状态集与动作集，采用基于双层模糊推理的Q值迭代算法进行求解。以包含自能源模型的算例进行分析，规划结果表明在算例给定的参数下，所提综合能量管理策略具有较高的效率和更好的适用性，能有效实现不确定环境下自能源的最优调配。

参考文献

[1]Krause T, Andersson G, Fröhlich K, et al.Multiple-energy carriers：modeling of production, delivery, and consumption[J].Proceedings of the IEEE, 2011, 99(1): 15-27.

[2]李洋，吴鸣，周海明，等.基于全能流模型的区域多能源系统若干问题探讨[J].电网技术，2015，39(8)：2230-2237.

Li Yang, Wu Ming, Zhou Haiming, et al.Study on some key problems related to regional multi energy system based on universal flow model[J].Power System Technology, 2015,39(8): 2230-2237(in Chinese).

[3]贾宏杰，王丹，徐宪东，等.区域综合能源系统若干问题研究[J].电力系统自动化，2015，39(7)：198-207.

Jia Hongjie, Wang Dan, Xu Xiandong, et al.Research on some key problems related to integrated energy systems[J].Automation of Electric Power Systems, 2015, 39(7): 198-207(in Chinese).

[4]周孝信，曾嵘，高峰，等.能源互联网的发展现状与展望[J].中国科学：信息科学，2017，47（2）：149-170.

Zhou Xiaoxin, Zeng Rong, Gao Feng, et al.Development status and prospects of the energy internet[J].Scientia Sinica(Informationis), 2017, 47(2): 149-170(in Chinese).

[5]国务院关于积极推进“互联网+”行动的指导意见[EB/OL].(2017-07-04).http://www.gov.cn/zhengce/content/2015-07/04/content_10002.htm.

[6]梅生伟，李瑞，黄少伟，等.多能互补网络建模及动态演化机理初探[J].全球能源互联网，2018，1(1)：10-22.

Mei Shengwei, Li Rui, Huang Shaowei, et al.Preliminary investigation on the modeling and evolutionary analytics of multi-carrier energy systems[J].Journal of Global Energy Interconnection, 2018, 1(1): 10-22(in Chinese).

[7]徐飞，闵勇，陈磊，等.包含大容量储热的电-热联合系统[J].中国电机工程学报，2014，34（29）：5063-5072.

Xu Fei, Min Yong, Chen Lei, et al.Combined electricity-heat operation system containing large capacity thermal energy storage[J].Proceedings of the CSEE, 2014, 34(29): 5063-5072(in Chinese).

[8]戴毅茹，王坚.集成能源、物料、排放的能源系统建模与优化[J].同济大学学报（自然科学版），2015，43(2)：265-272.

Dai Yiru, Wang Jian.Modeling and optimization of integrated energy system considering synergy among energy, material and emission elements[J].Journal of Tongji University(Natural Science), 2015, 43(2): 265-272(in Chinese).

[9]徐宪东，贾宏杰，靳小龙，等.区域综合能源系统电/气/热混合潮流算法研究[J].中国电机工程学报，2015，35(14)：3634-3642.

Xu Xiandong, Jia Hongjie, Jin Xiaolong, et al.Study on hybrid heat-gas-power flow algorithm for integrated community energy system[J].Proceedings of the CSEE, 2015, 35(14):3634-3642(in Chinese).

[10]黄武靖，张宁，董瑞彪，等.构建区域能源互联网：理念与实践[J].全球能源互联网，2018，1(2)：103-111.

Huang Wujing, Zhang Ning, Dong Ruibiao, et al.Construction of regional energy internet: concept and practice[J].Journal of Global Energy Interconnection, 2018, 1(2): 103-111(in Chinese).

[11]Alstone P, Gershenson D, Kammen D M.Decentralized energy systems for clean electricity access[J].Nature Climate Change,2015, 5(4): 305-314.

[12]刘振亚.全球能源互联网[M].北京：中国电力出版社，2015.

Liu Zhenya.Global energy interconnection[M].Beijing：China Electric Power Press, 2015(in Chinese).

[13]Ji Z D, Sun Y C, Wang S Z, et al.Design of a three-phase cascaded power electronic transformer based on energy internet[C]// International Conference on Sustainable Power Generation and Supply, IET, Hangzhou, 2012: 1-6.

[14]薛禹胜院士：把握未来电力核心谈能源互联网不要生搬硬套[EB/OL].(2015-1-13).http://shupeidian.bjx.com.cn/html/20150113/581425.shtml.

[15]孙秋野，王冰玉，黄博南，等.狭义能源互联网优化控制框架及实现[J].中国电机工程学报，2015，35（18）：4571-4580.

Sun Qiuye, Wang Bingyu, Huang Bonan, et al.The optimization control and implementation for the special energy internet [J].Proceedings of the CSEE, 2015, 35(18): 4571-4580(in Chinese).

[16]Q.Sun, L.Yang.From independence to interconnection-a review of AI technology applied in energy systems[J].CSEE Journal of Power and Energy Systems., 2019, 5(1): 21-34.

[17]Q.Sun, Energy internet and We-energy.Berlin, German:Springer-Verlag.2018.

[18]Qiuye Sun, Ruyi Fan, Yushuai Li, et al.A distributed double-consensus algorithm for residential We-energy,IEEE Transactions on Industrial Informatics, DOI: 10.1109/TII.2019.2921431.

[19]Jingwei Hu, Qiuye Sun, Yan Zhao, et al.Sliding mode control for We-energy based on Markovian jumping systems[J].International Journal of Control, Automation and Systems,2019, 17(7): 1793-1802.

[20]N.Zhang, Q.Sun and D.Ma, Storage control strategy for energy hub of We-energy in the energy internet[C]//29th Chinese Control and Decision Conference (CCDC),Chongqing, China, May 28-30, 2017.

[21]Xu Y, Zhang W, Liu W, et al.Multiagent-based reinforcement learning for optimal reactive power dispatch[J].IEEE Transactions on Systems Man & Cybernetics Part C(Applications & Reviews)，2012, 42(6): 1742-1751.

[22]Yuce B, Rezgui Y, Mourshed M.ANN-GA smart appliance scheduling for optimised energy management in the domestic sector[J].Energy and Buildings, 2016, 111: 311-325.

[23]方德斌，王先甲，张玉新，等.电力市场环境下发电公司投标智能决策支持系统[J].电网技术，2003，27（11）：38-42.

Fang Debin, Wang Xianjia, Zhang Yuxin, et al.Intelligent bidding decision support system for generating companies under electricity market[J].Power System Technology, 2003,27(11): 38-42(in Chinese).

Comprehensive Energy Management Strategy of We-energy Based on Fuzzy Q-learning

ZHANG Ning1*, SUN Qiuye1, 2, MA Dazhong1
（1.School of Information Science and Engineering, Northeastern University, Shenyang 110819, Liaoning Province, China; 2.State Key Laboratory of Synthetical Automation for Process Industries, Northeastern University, Shenyang 110819, Liaoning Province, China）

Abstract: The traditional energy hub cannot fully satisfy demands owing to increase in users’ participation in comprehensive energy system and system complexity.Some important factors to be considered include how to solve the uncertainty of the environment and improve the self-regulation capability of the energy unit.This study proposes a We-energy integrated scheduling model with full duplex and distributed characteristics to handle various uncertainties.Furthermore,the demand side response is determined, and the corresponding energy management strategy is proposed.Unlike other models,the proposed integrated energy scheduling model fully describes the operation characteristics of the integrated energy system.Furthermore, a reinforcement learning algorithm, which has low demand for environmental models, is adopted to introduce uncertainty as a state index and perform fuzzy discretization processing such that the effects of various uncertainties on the model can be estimated without early prediction.Simulation results show that the proposed integrated energy management strategy has higher efficiency and better applicability, and can effectively achieve optimal allocation of self-energy in an uncertain environment.

Keywords: We-energy; energy management; reinforcement learning; demand side response; uncertainty

文章编号：2096-5125 (2019) 06-0530-08

中图分类号：TK01；TP393.09

文献标志码：A

DOI：10.19705/j.cnki.issn2096-5125.2019.06.002

基金项目：国家自然科学基金（61573094，61433004）。

National Natural Science Foundation of China（61573094,61433004）.

收稿日期：2019-06-28；修回日期：2019-07-25。

作者简介：

张宁

张宁（1993），男，博士研究生，主要研究方向为综合能源系统的优化与安全运行、新能源不确定性、能源市场交易等。通信作者，E-mail：hbuzhangning@163.com。

孙秋野（1977），男，教授，主要研究方向为网络控制技术、分布式控制技术、分布式优化分析及其在能源互联网、微网、配电网等领域相关应用，E-mail：sunqiuye@ise.neu.edu.cn。

马大中（1982），男，副教授，主要研究方向为故障诊断、容错控制、能源管理系统、分布式发电系统、微网和能源互联网的优化与控制，E-mail：madazhong@ise.neu.edu.cn。

（责任编辑李锡）