湖南大学黄炜获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖南大学申请的专利一种基于双耦合智能体网络的多子目标任务实现方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121638815B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610150307.2,技术领域涉及:G06Q10/0631;该发明授权一种基于双耦合智能体网络的多子目标任务实现方法是由黄炜;张百达设计研发完成,并于2026-02-03向国家知识产权局提交的专利申请。
本一种基于双耦合智能体网络的多子目标任务实现方法在说明书摘要公布了:本发明公开了一种基于双耦合智能体网络的多子目标任务实现方法,包括:将实时获取的当前环境的状态和期望目标输入训练好的双耦合智能体网络中,得到对应的多子目标任务实现策略;双耦合智能体网络包括:利用智能体:主网络A根据当前环境状态与目标,获取对应的动作及其评估值和外部奖励,并存储至经验回放区;目标网络A根据评估值完成对主网络A的优化;探索智能体:主网络B从经验回放区随机获取样本,预测该样本状态的下一个状态,并计算内部奖励,目标网络B根据预测状态及内部奖励对主网络B进行优化,耦合网络根据当前环境状态和目标,生成动作及其外部奖励,外部奖励用于更新利用智能体,根据内部奖励完成对主网络B的优化。
本发明授权一种基于双耦合智能体网络的多子目标任务实现方法在权利要求书中公布了:1.一种基于双耦合智能体网络的多子目标任务实现方法,用于多物块机器人抓取任务,任务类型包括1-4个方块的拾放、推动和堆叠三类,其特征在于,包括以下步骤: 将实时获取的当前环境的状态和期望目标输入训练好的双耦合智能体网络中,得到对应的多子目标任务实现策略;双耦合智能体网络包括:利用智能体和探索智能体; 利用智能体包括:主网络A根据当前环境状态与目标,获取对应的动作及其评估值和外部奖励,并存储至经验回放区;目标网络A根据评估值完成对主网络A的优化; 探索智能体包括:主网络B从经验回放区随机获取样本,通过前向动力学模型FD预测该样本状态的下一个状态,并计算内部奖励,目标网络B根据预测状态及内部奖励对主网络B进行优化,耦合网络根据当前环境状态和目标,生成与环境交互的动作及其外部奖励,其中外部奖励用于更新利用智能体,根据内部奖励完成对主网络B的优化; 双耦合智能体网络的训练过程包括: 采用分布式训练架构进行,2n个进程并行执行训练流程,与环境交互以收集训练数据的智能体根据进程号确定,偶数号进程使用探索智能体,奇数号进程使用利用智能体;其中,探索智能体和利用智能体共享同一个经验回放区中的样本数据; 在利用智能体和探索智能体中,主网络的评论家网络在每次训练迭代中基于时序差分TD目标构造评论家损失函数,并通过梯度下降更新参数; 主网络的演员网络采用延迟更新机制:每当主网络的评论家网络完成预设的若干次更新后,依据确定性策略梯度定理更新一次主网络的演员网络参数,同时对目标网络中的演员网络和评论家网络同步根据Polyak平均进行软更新; 前向动力学模型FD使用状态预测的均方误差作为损失函数,使用梯度下降进行更新; 耦合网络中仅更新演员网络,基于其自身输出的加权平均Q值根据确定性策略梯度定理进行参数更新。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖南大学,其通讯地址为:410082 湖南省长沙市岳麓区麓山南路1号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励