山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院)杨美红获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院)申请的专利基于查询和元数据异常检测的数据湖仓聚簇方法与系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118939736B 。
龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410944068.9,技术领域涉及:G06F16/28;该发明授权基于查询和元数据异常检测的数据湖仓聚簇方法与系统是由杨美红;王玺;王英龙;郭莹;赵志浩;孙博文;孟旭东设计研发完成,并于2024-07-15向国家知识产权局提交的专利申请。
本基于查询和元数据异常检测的数据湖仓聚簇方法与系统在说明书摘要公布了:本发明涉及基于查询和元数据异常检测的数据湖仓聚簇方法与系统,属于大数据计算技术领域。包括:数据采集与预处理;EC‑GKDE算法异常判定:对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,进行初次判定;元数据信息异常判定:获取异常查询任务的关联表,获取Hive元数据服务中HDFS实际路径信息,并计算该HDFS实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表;聚簇优化:提交聚簇任务,将小文件合并为大文件。本发明减少存储资源的开销,大大降低了查询任务需要消耗的时间;本发明可以控制聚簇操作执行的次数,减轻聚簇机制带来的并发更新不支持、增量查询不友好和集群资源浪费的问题。
本发明授权基于查询和元数据异常检测的数据湖仓聚簇方法与系统在权利要求书中公布了:1.基于查询和元数据异常检测的数据湖仓聚簇方法,其特征在于,包括: 数据采集与预处理:采集历史查询任务的各项性能指标,筛选其中部分相关性能指标作为初始数据集,并对初始数据集进行预处理操作; EC-GKDE算法异常判定:通过基于经验累积分布函数和高斯核密度估计方法的EC-GKDE算法,对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,对异常查询任务进行初次判定; 元数据信息异常判定:获取异常查询任务的关联表,依据异常查询任务的关联表的表信息获取Hive元数据服务中HDFS实际路径信息,并计算该HDFS实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表; 聚簇优化:将异常表的信息作为同步聚簇操作的依据,提交聚簇任务,将小文件合并为大文件; 通过基于经验累积分布函数和高斯核密度估计方法的EC-GKDE算法,对预处理操作后的数据集进行训练,得到所有查询任务的异常分数,对异常查询任务进行初次判定;包括: 尾部概率估计:对于数据集中的每个数据点,使用单变量的经验累积分布函数来估计该数据点在全部维度的左尾部ECDF概率和右尾部ECDF概率; 尾部权重系数:将同一维度的数据归一化到[0,1]区间,使用高斯核函数计算每一维度数据的核密度,根据每一维度中密度最大的数据点来确定左尾部ECDF概率和右尾部ECDF概率的权重;若每一维度中密度最大的数据点位于数据的右侧,说明异常点集中于左侧,则增加左尾部ECDF概率的权重;反之,增加右尾部ECDF概率的权重; 尾部概率聚合:分别从只考虑左尾部、只考虑右尾部以及考虑左尾部ECDF概率和右尾部ECDF概率的权重来聚合尾部概率,得到每个样本的异常分数; 异常分数选取:使用负对数空间来表示概率,较低的概率对应于较高的异常分数,在左尾部、右尾部以及考虑权重的尾部概率聚合结果中,选取最大值作为最终的异常分数; 异常任务判定:得到异常分数后,根据实际场景所设定的阈值,来判定哪些查询任务被认为是异常任务; 获取异常查询任务的关联表,依据异常查询任务的关联表的表信息获取Hive元数据服务中HDFS实际路径信息,并计算该HDFS实际路径下小文件所占比例,二次判定该异常查询任务的关联表是否为异常表;包括: 首先,每条查询任务都存在query字段,包括用户提交的SQL语句,使用sqlparse库解析SQL语句,提取其中涉及的关联表的表信息; 其次,利用表信息获取Hudi存储在Hive元数据服务中关于异常表的HDFS实际路径信息,根据路径信息递归列出所有文件名称及大小,并输出到CSV文件中; 最后,筛选保留存储数据和版本最新的基本文件,小于Hudi小文件阈值的文件被认定为小文件,统计小文件的数量和总文件的数量,计算小文件数量占总文件数量的比例,大于既定阈值则二次判定该关联表为异常表。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人山东省计算中心(国家超级计算济南中心);齐鲁工业大学(山东省科学院),其通讯地址为:250014 山东省济南市科院路19号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励