广东电网有限责任公司彭勃获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉广东电网有限责任公司申请的专利一种基于Subword词表的能源数据清洗方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116108126B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310134265.X,技术领域涉及:G06F16/30;该发明授权一种基于Subword词表的能源数据清洗方法及装置是由彭勃;左婧;龚贤夫;李耀东;李作红;张姣;李欣洋;谢敏设计研发完成,并于2023-02-17向国家知识产权局提交的专利申请。
本一种基于Subword词表的能源数据清洗方法及装置在说明书摘要公布了:本发明公开了一种基于Subword词表的能源数据清洗方法及装置,所述方法包括:在获取能源数据后,利用预设的Subword词表将所述能源数据的每个文本转换成第一文本嵌入矩阵,所述Subword词表是字符粒度级别的文本列表;将所述第一文本嵌入矩阵转换成符合模型输入格式的综合矩阵;将所述综合矩阵输入至预设的神经网络模型进行清洗处理,得到清洗数据。本发明可以利用字符粒度级别的Subword词表从能源数据中提取句子和序号并将其转换成模型的输入矩阵,再将输入矩阵输入至模型进行清洗处理得到清洗后的数据,由于Subword词表是字符粒度级别,不但规模小而且转换处理不会损失数据的信息量,进而能节省后续清洗计算的数据量,以缩短计算的处理耗时,提升清洗数据的处理效率。
本发明授权一种基于Subword词表的能源数据清洗方法及装置在权利要求书中公布了:1.一种基于Subword词表的能源数据清洗方法,其特征在于,所述方法包括: 在获取能源数据后,利用预设的Subword词表将所述能源数据的每个文本转换成第一文本嵌入矩阵,所述Subword词表是字符粒度级别的文本列表; 将所述第一文本嵌入矩阵转换成符合模型输入格式的综合矩阵; 将所述综合矩阵输入至预设的神经网络模型进行清洗处理,得到清洗数据; 其中,所述预设的Subword词表的构建方式,包括: 录入第一文本样本数据,并对所述第一文本样本数据进行字符粒度级别的分割,得到第一分割字符; 统计每个所述第一分割字符与相邻字符组成字符对的频率,得到多个第一字符对频率值; 从所述多个第一字符对频率值中筛选若干个大于预设频率值的目标第一字符对频率值,并采用每个所述目标第一字符对频率值对应的字符对构建生成Subword词表; 所述能源数据有N个文本组成,每个所述文本至少包含一个句子,N大于或等于1; 所述利用预设的Subword词表将所述能源数据的每个文本转换成第一文本嵌入矩阵,包括: 识别所述能源数据内每个文本对应句子以及每个句子所包含的序号,并利用所述预设的Subword词表将每个文本对应句子以及每个句子所包含的序号转换成向量,分别得到每个所述文本对应的第一句子向量和第一序号向量; 将所述第一句子向量与所述第一序号向量相加得到每个文本对应的第一相加向量; 拼接N个所述第一相加向量得到第一文本向量,对所述第一文本向量进行矩阵嵌入操作,得到第一文本嵌入矩阵。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广东电网有限责任公司,其通讯地址为:510000 广东省广州市越秀区东风东路757号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励