深圳九星互动科技有限公司蒋绍君获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳九星互动科技有限公司申请的专利多任务协同的增量式网页数据采集方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120780428B 。
龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510888339.8,技术领域涉及:G06F9/48;该发明授权多任务协同的增量式网页数据采集方法及系统是由蒋绍君设计研发完成,并于2025-06-30向国家知识产权局提交的专利申请。
本多任务协同的增量式网页数据采集方法及系统在说明书摘要公布了:本发明公开了多任务协同的增量式网页数据采集方法及系统,具体涉及网页数据采集技术领域,包括以下步骤:对目标网页进行初次评估计算结构不确定度评分,判断是否进入深度评估生成页面结构一致性指数与内容更新指数,通过采集调度预测模型输出采集调度系数并选择结构重构标记跟踪或内容差异快照比对路径;结合两个指数的组合关系分类任务策略类型,并依照分类结果与预设协同策略实现多任务协同采集;本发明可动态感知网页结构与内容变化,生成结构一致性指数与内容更新指数,提升采集前的判断精度;依据采集调度系数选择适配路径,增强复杂网页环境下的采集稳定性;结合分类结果与协同策略,优化资源分配与时间调度,实现多任务间高效协同。
本发明授权多任务协同的增量式网页数据采集方法及系统在权利要求书中公布了:1.多任务协同的增量式网页数据采集方法,其特征在于,包括以下步骤: 在网页采集任务调度前,对目标网页执行初次评估操作,初次评估操作包括获取网页在预设历史周期内的结构层级变化范围、可视区域的重构频率以及渲染位置波动情况,计算结构不确定度评分,并根据该评分判断是否进入深度评估流程;其中,结构不确定度评分的计算包括以下步骤: 对目标网页在最近连续三个采集周期中获取的结构层级信息进行比较,分别提取每一周期内的结构节点集合,结构节点集合中的每个节点包含标签名称、层级深度与兄弟节点数量三项指标; 将任意两个周期间的结构节点集合进行逐一映射,对比标签变更数量、层级迁移数量与新增或缺失节点数量,按预设比例加权求和后得到任意两个周期构成的周期间结构变动量;以所有周期间结构变动量的平均值作为结构变异基准值,并将该基准值除以当前网页结构节点总数,所得商乘以当前网页类型对应的预设浮动权重系数即为结构不确定度评分; 当结构不确定度评分超过预设紊乱阈值时,执行深度评估操作,深度评估包括分析网页结构节点的历史变动趋势、元素重排分布与区域稳定性模式,生成页面结构一致性指数;同时比对多个历史内容快照,计算字段更新密度、语义变异幅度及时间分布规律,生成内容更新指数;其中,页面结构一致性指数的生成过程包括以下步骤: 提取目标网页在连续五个历史采集时间点下的结构层级信息,将每个时间点的网页结构转化为节点路径集合,每一条路径由标签序列与其层级深度组合表示; 以第五时间点对应的路径集合为参考基准,依次对前四个时间点中的每一条路径执行对齐操作,路径对齐以标签序列最长公共子串为匹配基础,若公共子串长度超过路径总长度的六成即认定为成功对齐; 成功对齐后计算路径对之间的层级距离差,即标签末端节点的层级差值,将所有路径对的层级差值求平均值,形成该时间点相对于基准结构的层级差异值; 提取每个时间点结构路径的集中度,集中度定义为同层路径数量除以总路径数量的百分比,对每个时间点的层级差异值乘以其集中度得到的乘积值,再将五个时间点的该乘积值进行平均,最终得到页面结构一致性指数; 其中,内容更新指数的生成过程包括以下步骤: 提取目标网页在与结构层级采样一致的连续五个历史采集时间点的内容快照,将每一快照内容按照段落边界划分为多个内容块,并对各时间点中相邻快照的相同位置内容块执行差异分析; 对每一对相邻内容块,分别计算文字编辑跨度,定义为该内容块两个版本之间的最小编辑距离与当前快照中该内容块总字数的比值; 计算关键词组变化幅度,定义为两个版本内容中提取的关键词集合间的对称差集大小与两个集合并集大小之比; 计算发布时间排列偏移,定义为内容块中所有段落发布时间的标准差与该时间点整体段落平均发布时间标准差之间的差值; 将每组段落的上述三个值即文字编辑跨度、关键词组变化幅度和发布时间排列偏移,分别归一至零至一的区间,并将归一结果乘以该段落在网页中的显示密度,显示密度为该段落占网页总内容长度的百分比;将每对快照中所有段落的乘积值求和,最终对五个快照之间的总和取平均值,生成内容更新指数; 将页面结构一致性指数与内容更新指数作为输入参数送入经预训练完成的采集调度预测模型,输出采集调度系数,该系数用于评估当前任务在当前调度周期内的执行优先级与策略倾向; 根据采集调度系数的数值区间,选择任务的采集路径,采集路径包括基于结构重构容忍增强的标记跟踪与定位流程,或基于内容差异识别的增量比对与快照更新流程; 在确定采集路径后,结合页面结构一致性指数与内容更新指数的组合关系,对采集任务进行执行策略分类,分类结果为结构主控型、内容主控型或调度响应型,依照分类结果以及预设协同策略,调整任务的资源分配顺序与调度时间窗口,完成多任务之间的协同调度与策略适配。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳九星互动科技有限公司,其通讯地址为:518000 广东省深圳市南山区桃源街道长源社区学苑大道1001号南山智园A5栋1101;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励