Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 南京邮电大学余亮获国家专利权

南京邮电大学余亮获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉南京邮电大学申请的专利一种基于深度对抗逆向强化学习的智慧家庭能量管理方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120046831B

龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411664307.1,技术领域涉及:G06Q10/063;该发明授权一种基于深度对抗逆向强化学习的智慧家庭能量管理方法是由余亮;张丁凡;何佳栋;方景;岳东;陈志强设计研发完成,并于2024-11-20向国家知识产权局提交的专利申请。

一种基于深度对抗逆向强化学习的智慧家庭能量管理方法在说明书摘要公布了:本发明公开了一种基于深度对抗逆向强化学习的智慧家庭能量管理方法,步骤如下:1建模智慧家庭能量成本最小化问题并设计对应马尔可夫决策过程的环境状态和动作;2基于一组随机参数历史数据和滚动生成法构造n组随机参数历史数据;3利用n组随机参数历史数据和最优化算法求解上述最小化问题并得到n条专家轨迹;4鉴别器基于专家轨迹和生成器智能体产生的轨迹训练奖励网络;在奖励网络的引导下,利用经验元组和近端策略优化算法对生成器智能体进行训练;5重复步骤4直到获得训练性能稳定的智能体策略;6将训练得到的智能体策略部署在实际环境中运行。相比现有方法,本发明方法可有效降低能量成本并提升用户舒适性。

本发明授权一种基于深度对抗逆向强化学习的智慧家庭能量管理方法在权利要求书中公布了:1.一种基于深度对抗逆向强化学习的智慧家庭能量管理方法,其特征在于,包括如下步骤: 1建模智慧家庭能量成本最小化问题并设计对应马尔可夫决策过程的环境状态、动作; 2基于一组随机参数历史数据和滚动生成法构造组随机参数历史数据; 3利用组随机参数历史数据和最优化算法求解上述最小化问题并得到条专家轨迹; 4鉴别器基于专家轨迹和生成器智能体产生的轨迹训练奖励网络;在奖励网络的引导下,利用经验元组和近端策略优化算法对生成器智能体进行训练; 所述的鉴别器的输入由两部分组成,分别是专家轨迹和生成器智能体策略所生成的轨迹,输出为,其表达式如下: 18, 其中:表示状态、动作以及下一时隙状态的组合与专家轨迹一致的概率,exp表示以自然对数为底数的幂,表示用于引导生成器智能体训练的奖励,和表示奖励网络的网络参数,表示生成器智能体在状态选择动作的概率; 所述的奖励网络训练过程如下: 初始化环境、智能体策略和奖励网络参数,令step=0,执行所设置的迭代过程直至step=A,其中:A是预设的迭代步数, 所述的迭代过程是: 1通过执行智能体策略与环境交互得到智能体轨迹; 2最小化专家轨迹和智能体生成轨迹之间的二元交叉熵损失,表达式如下: 19, 其中:表示奖励网络的损失函数,表示采样的状态动作对数量,表示第i个状态动作对的真实标签,来自专家轨迹为1,来自生成器智能体策略则为0; 3根据奖励网络的输出引导生成器智能体训练,优化智能体策略; 所述的生成器智能体训练过程如下: 初始化环境、评论家网络和行动者网络,给定深度逆向强化学习得到的奖励网络,令,并执行所设置的迭代过程直至,其中:是预设的训练回合数量, 所述的迭代过程是: 1在任意时隙,获取当前的环境状态,行动者网络输出高斯分布的均值和标准差,根据该均值和标准差采样得到动作,即电池储能系统的充放电功率和暖通空调系统的输入功率; 2动作驱动环境获得下一个时隙的状态; 3将状态、动作、下一时隙状态的组合输入奖励网络,获得奖励,表示在t时隙的奖励; 4将四元组存储到经验池中,并令; 5当时,从经验池中提取小批量数据对深度神经网络的权重参数进行更新,评论家网络的参数是通过最小化损失函数进行更新的,公式如下: 20, 21, 其中:表示智能体在状态下执行动作到终止状态得到的累计折扣奖励,表示折扣因子,行动者网络的参数是通过最小化损失函数进行更新的,公式如下: 22, 23, 24, 其中:表示行动者网络上一时隙的权重参数,表示行动者网络的策略函数,该函数表示状态到动作的概率分布映射;是优势函数,其评估了智能体在状态下采取动作的优势;表示截断,即把策略限制在范围内,是一个超参数,表示截断的范围; 5重复步骤4直到获得训练性能稳定的智能体策略; 6将训练得到的智能体策略部署在实际环境中运行。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210003 江苏省南京市鼓楼区新模范马路66号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。