度小满科技(北京)有限公司许士亭获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉度小满科技(北京)有限公司申请的专利文本处理方法、装置、存储介质和处理器获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN114781370B 。
龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202210320797.8,技术领域涉及:G06F40/289;该发明授权文本处理方法、装置、存储介质和处理器是由许士亭;杨青设计研发完成,并于2022-03-29向国家知识产权局提交的专利申请。
本文本处理方法、装置、存储介质和处理器在说明书摘要公布了:本发明公开了一种文本处理方法、装置、存储介质和处理器,本发明涉及语义识别技术领域。其中,该方法包括:获取输入文本,其中,输入文本包括多个输入字;对输入文本进行分词,得到输入文本的初始分词结果,其中,初始分词结果包括:多个输入字的分词概率、第一分词标签和第二分词标签,第一分词标签用于表征输入文本的分词标签,第二分词标签用于表征对输入文本包含的错别字进行纠错处理后得到的分词标签;基于分词概率,从第一分词标签与第二分词标签中选取目标分词标签;通过目标分词标签确定输入文本的目标分词结果。本发明解决了由于训练样本存在错字造成的分词模型识别正确率较低的技术问题。
本发明授权文本处理方法、装置、存储介质和处理器在权利要求书中公布了:1.一种文本处理方法,其特征在于,包括: 获取输入文本,其中,所述输入文本包括多个输入字; 对所述输入文本进行分词,得到所述输入文本的初始分词结果,其中,所述初始分词结果包括:所述多个输入字的分词概率、第一分词标签和第二分词标签,所述第一分词标签用于表征所述输入文本的分词标签,所述第二分词标签用于表征对所述输入文本包含的错别字进行纠错处理后得到的分词标签; 基于所述分词概率,从所述第一分词标签与所述第二分词标签中选取目标分词标签; 通过所述目标分词标签确定所述输入文本的目标分词结果; 所述方法还包括:获取第一数据集,其中,所述第一数据集包含:多个第一字和所述多个第一字的预设分词标签;基于所述第一数据集生成第二数据集,其中,所述第二数据集包含:多个第二字和所述预设分词标签,所述多个第二字是对所述多个第一字中的目标字进行替换生成的; 其中,对所述输入文本进行分词,得到所述输入文本的初始分词结果包括:利用多任务分词模型中的特征提取模块对所述输入文本进行特征提取,得到所述多个输入字的目标特征向量;利用所述多任务分词模型中的第一分词模型对所述目标特征向量进行分词处理,得到所述第一分词标签,其中,所述第一分词模型是通过未包含错别字的所述第一数据集进行训练得到的;利用所述多任务分词模型中的子任务模块对所述目标特征向量进行识别,得到所述多个输入字的分词概率;利用所述多任务分词模型中的第二分词模型对所述目标特征向量进行分词处理,得到所述第二分词标签,其中,所述第二分词模型是通过包含错别字的所述第二数据集进行训练得到的。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人度小满科技(北京)有限公司,其通讯地址为:100193 北京市海淀区西北旺东路10号院西区4号楼6层606室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励