浙江大学计算机创新技术研究院袁静获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学计算机创新技术研究院申请的专利一种基于双塔模型的自适应术语归一化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116127956B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310018843.3,技术领域涉及:G06F40/247;该发明授权一种基于双塔模型的自适应术语归一化方法是由袁静;赵俊博;陈刚;鲁鹏;周显锞设计研发完成,并于2023-01-06向国家知识产权局提交的专利申请。
本一种基于双塔模型的自适应术语归一化方法在说明书摘要公布了:本发明公开了一种基于双塔模型的自适应术语归一化方法。对术语原词利用检索方式在标准术语典中查找召回多个和术语原词相似的标准术语;组建有样本对,并均衡处理获得均衡后的样本对集;用均衡后的样本对集输入到Sentence‑BERT双塔模型中进行训练,Sentence‑BERT双塔模型输出标签和预测结果,使用训练好的Sentence‑BERT双塔模型对标准术语典处理,获得句子向量保存于离线向量数据库;对待预测术语原词用训练好的Sentence‑BERT双塔模型处理,再结合离线向量数据库处理预测获得相似性高的标准术语,再匹配附加到待预测术语原词上。本发明能对一个不标准的术语文本归一化匹配,优化工业场景下处理,计算量小,运算速度快,大大提高了匹配归一化的效率。
本发明授权一种基于双塔模型的自适应术语归一化方法在权利要求书中公布了:1.一种基于双塔模型的自适应术语归一化方法,其特征在于:方法包括: 1针对术语原词,利用多种检索方式在标准术语典中查找召回多个和术语原词相似的标准术语; 2将查找召回的所有标准术语分别与术语原词组成负样本对,一个标准术语与术语原词组成一对负样本对,将术语原词和正确的标准术语组成正样本对,从而获得所有样本对; 3对构造好的所有样本对进行正负样本的均衡处理,获得均衡后的样本对集; 4使用均衡后的样本对集输入到Sentence-BERT双塔模型中进行训练,Sentence-BERT双塔模型输出标签和预测结果,标签是样本对为相似或者不相似的分类,预测结果是术语原词对应的标准术语的个数; 5使用训练好的Sentence-BERT双塔模型对标准术语典中的所有标准术语进行推理计算处理,将Sentence-BERT双塔模型处理中获得的所有标准术语对应的句子向量保存到离线向量数据库中; 6针对用户输入的待预测术语原词,使用训练好的Sentence-BERT双塔模型对待预测术语原词进行推理计算处理,再结合离线向量数据库处理预测获得相似性高的标准术语输出; 7利用步骤6获得的相似性高的标准术语匹配附加到待预测术语原词实现归一化; 所述步骤6具体为: 6.1使用训练好的Sentence-BERT双塔模型对待预测术语原词进行处理,输出原词句子向量u; 6.2按照步骤1的相同方式对待预测术语原词处理获得多个和术语原词相似的标准术语,并进行去重; 6.3在预先存储的离线向量数据库中,以查表的方式取出和步骤6.2获得的各个标准术语对应的标准术语句子向量v,将术语原词句子向量u与各个标准术语句子向量v分别组成句子对; 6.4将各对句子对送入Sentence-BERT双塔模型的相似度分类器中判断获得句子对间是否相似的概率,然后根据相似的概率的排序对和步骤6.2获得的各个标准术语进行排序; 6.5将术语原词编码后的向量送入Sentence-BERT双塔模型的个数预测分类器中进行标准术语个数预测,获得预测的标准术语的个数; 6.6用步骤6.5中模型预测出的标准术语个数,对步骤6.4中排序后的标准术语进行截断,输出标准术语个数个的排序靠前的标准术语。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学计算机创新技术研究院,其通讯地址为:311120 浙江省杭州市萧山区利一路188号天人大厦33楼;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励