湖北科惠通科技有限公司陈围获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉湖北科惠通科技有限公司申请的专利一种大数据处理方法、系统及存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120068003B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510543549.3,技术领域涉及:G06F16/215;该发明授权一种大数据处理方法、系统及存储介质是由陈围;刘健设计研发完成,并于2025-04-28向国家知识产权局提交的专利申请。
本一种大数据处理方法、系统及存储介质在说明书摘要公布了:本发明提供了一种大数据处理方法、系统及存储介质,属于大数据处理与分析技术领域。所述方法包括:获取原始数据并通过数据类型识别模块进行分类,生成数据类型标签序列;基于所述数据类型标签序列,对原始数据进行初步清洗,形成初步清洗后的数据集;基于初步清洗后的数据集,采用多维度数据质量评估模型,生成数据质量评分序列;根据所述数据质量评分序列,识别异常值和噪声,并进行修复,生成质量评估后的修复数据集;基于所述修复数据集,执行多源数据融合与去重操作,形成去重后的融合数据集。本发明提升了科创大数据的质量和准确性,实现了高效的数据处理和统一存储,适用于复杂多源数据的处理场景。
本发明授权一种大数据处理方法、系统及存储介质在权利要求书中公布了:1.一种大数据处理方法,其特征在于,所述方法包括: 从多个数据源获取原始数据,并基于进行分类,得到数据类型标签序列,所述原始数据包括数据库、传感器、文档、网络爬虫、图像采集设备或音频视频输入设备;所述分类包括: 将文本数据被转化为标准的文本格式,图像数据转化为数字化的图像矩阵,音频数据转化为时域信号或频域特征,视频数据转化为图像序列或视频帧的特征向量,生成初始数据集; 采用训练好的机器学习模型通过分析数据项的特征对初始数据集进行分类; 对模糊标签通过进一步的特征分析细化标签,生成最终数据类型标签序列; 基于所述数据类型标签序列,对原始数据进行初步清洗,包括去噪、填补缺失值,生成初步清洗后的数据集; 对文本数据应用自然语言处理去噪,对图像数据应用中值滤波、均值滤波去噪,对音频数据应用频谱分析去噪,对视频数据应用时域滤波去噪; 对文本数据使用词嵌入模型填补缺失值,对图像数据使用图像插值、生成对抗网络填补缺失区域,对音频数据使用时域插值、频谱插值填补缺失部分; 基于所述初步清洗后的数据集,采用多维度数据质量评估模型,对数据的完整性、准确性及一致性进行评估,生成数据质量评分序列; 计算每条数据的完整性评分、准确性评分和一致性评分,生成质量评分序列; 所述完整性评分的表达式为: ; 其中,表示数据项的缺失率;表示数据项在第j个字段的值;m是数据的总字段数;是指示函数,当条件为真时取值为1,否则为0;若Piτ,则标记为低完整性数据; 所述准确性评分的表达式为: ; 其中,为标准分数,表示数据点相对于均值的偏差;和分别为数据集的均值和标准差;为Kullback-LeiblerKL散度,用于衡量数据分布Px与期望分布Qx的差异;若,则标记为异常数据; 根据所述数据质量评分序列,识别数据中的异常值和噪声,并对所述异常值和噪声进行修复,生成质量评估后的修复数据集; 使用检测数值型数据的异常值,对于检测到的异常值,系统使用插值方法进行修复;对于时间序列数据,通过回归分析来修复异常值; 基于所述修复数据集,执行多源数据融合与去重,去除重复数据并整合不同数据源的清洗结果,生成去重后的融合数据集; 所述执行多源数据融合与去重包含使用余弦相似度来衡量数据项之间的相似度; 将所述去重后的融合数据集存储至指定的存储介质中,并通过数据接口供后续的数据分析和应用。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人湖北科惠通科技有限公司,其通讯地址为:430000 湖北省武汉市东湖新技术开发区金融港四路18号普天物联网创新研发基地(一期)2栋2层02室-05;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励