Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 安徽大学王庆人获国家专利权

安徽大学王庆人获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉安徽大学申请的专利基于强化学习的自适应网页结构变化的数据采集方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117874318B

龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410057127.0,技术领域涉及:G06F16/951;该发明授权基于强化学习的自适应网页结构变化的数据采集方法及系统是由王庆人;张恒;刘森林;任思宇;韩梦迪;颜登程设计研发完成,并于2024-01-15向国家知识产权局提交的专利申请。

基于强化学习的自适应网页结构变化的数据采集方法及系统在说明书摘要公布了:本发明涉及数据爬取技术领域,更具体的,涉及基于强化学习的自适应网页结构变化的数据采集方法及系统。本发明预先构建了两个Docker容器,其中一个安装了浏览器程序、爬虫程序、守护进程,另一个用于存放及更新Actor‑Critic模型;本发明基于强化学习的方式对Actor‑Critic模型进行训练,使Actor‑Critic模型可以适应于目标网页的结构变化,自动学习到新的爬取流程,减少去修改爬虫程序代码的人力成本。本发明解决了现有的数据采集不能够自适应网页结构变化的问题。

本发明授权基于强化学习的自适应网页结构变化的数据采集方法及系统在权利要求书中公布了:1.一种基于强化学习的自适应网页结构变化的数据采集方法,其用于对目标网页完成设定的爬取任务,其特征在于,其包括以下步骤: 步骤一,构建Docker容器G、Docker容器R; 其中,Docker容器G用于安装浏览器程序、爬虫程序、守护进程;所述浏览器程序用于加载目标网页;所述爬虫程序用于控制浏览器程序执行Docker容器R发送来的动作;所述守护进程用于获取目标网页的状态、并计算执行动作后的即时奖励; Docker容器R用于存放及更新Actor-Critic模型A-C;A-C包括:策略网络部A、价值网络部C;Docker容器R内的模型依据守护进程发送来的状态、即时奖励,计算出动作、并更新模型参数; 步骤二,对Docker容器R内的模型进行N轮正式训练,通过强化学习的方式更新A、C的参数,直至爬虫程序正确地完成设定的爬取任务; 其中,第n轮正式训练的最大步数为T;n∈[1,N]; 第n轮正式训练中第t步的训练方法包括: 步骤3.1,依据状态St计算出第t步所要执行的动作At; 其中,包括、;表示第n轮正式训练中第t-1步训练得到的Actor-Critic模型;表示中的策略网络部,表示中的价值网络部;t∈[1,T-1]; 步骤3.1包括: 步骤3.1.1,将St转换成匹配维度的向量St、并输入,计算出动作概率πa|St;θt; 其中,πa|St;θt表示在St下输出动作a的概率;θt表示在第n轮正式训练中第t-1步更新后的参数; 步骤3.1.2,根据动作概率πa|St;θt进行随机采样,得到第t步所要执行的动作At、并传输给爬虫程序; 步骤3.1.3,在St下执行动作a、并输出动作a的打分为qa,St;wt; 其中,wt表示在第n轮正式训练中第t-1步更新后的参数; 步骤3.1.4,计算动作打分期望值VSt;θt,wt: : 步骤3.2,爬虫程序先控制浏览器程序执行At,然后控制浏览器程序对目标网页进行截图、并得到状态St+1; 步骤3.2包括: 步骤3.2.1,爬虫程序接收Docker容器R传来的At,并控制浏览器程序执行At; 步骤3.2.2,目标网页在被执行At后到达新的状态,爬虫程序对浏览器程序的窗口进行截图操作,得到目标网页的截图、并作为St+1; 步骤3.2.3,生成爬虫程序对应的日志logt+1;其中,logt+1包括:当前步数为第t步、St+1; 步骤3.3,守护进程获取St+1,并计算At的即时奖励Rt; 步骤3.3包括: 步骤3.3.1,守护进程读取logt+1,并加载St+1; 步骤3.3.2,若St+1完成了设定的爬取任务,则Rt取正奖励rt;否则,Rt取0; 其中,若St+1超过T步仍未完成设定的爬取任务,则Rt取负奖励-rt; 步骤3.4,依据Rt更新、的参数,形成;依据St+1计算出第t+1步所要执行的动作At+1。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人安徽大学,其通讯地址为:230601 安徽省合肥市经济技术开发区九龙路111号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。