南京大学黄书剑获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京大学申请的专利一种筛选含义偏移子词的方法、装置和存储介质获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116306617B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310279284.1,技术领域涉及:G06F40/284;该发明授权一种筛选含义偏移子词的方法、装置和存储介质是由黄书剑;申雨潼;戴新宇;张建兵;陈家骏设计研发完成,并于2023-03-21向国家知识产权局提交的专利申请。
本一种筛选含义偏移子词的方法、装置和存储介质在说明书摘要公布了:本发明公开了一种筛选含义偏移子词的方法、装置和存储介质,其中筛选含义偏移子词的方法,通过共享子词统计出源领域和目标领域来源词组,通过比较源领域和目标领域来源词组来判定共享子词含义是否发生偏移,通过预训练语言模型对来源词组进行综合表示编码,利用余弦相似度量化来源词组间的相似度。有效的筛选出发生含义偏移的共享子词,优化目标领域子词表示,从而提高目标领域模型性能。
本发明授权一种筛选含义偏移子词的方法、装置和存储介质在权利要求书中公布了:1.一种筛选含义偏移子词的方法,其特征在于:所述方法包括 分别基于源领域数据和目标领域数据训练出与各自领域对应的源领域BPE切分模型和目标领域BPE切分模型,通过各自领域的BPE切分模型对各自领域数据进行切分,分别得到源领域模型子词表和目标领域子词表; 筛选出既在源领域子词表又在目标领域子词表中出现的子词构成包含多个子词的共享子词表; 统计共享子词表中的每个共享子词在源领域数据的来源词形成源领域来源词组,统计所述共享子词表中的每个共享子词在目标领域数据的来源词形成目标领域来源词组; 基于一个预训练语言模型,分别对源领域来源词组和目标领域来源词组中的每个来源词进行编码表示,再基于每个来源词的出现频次对编码表示进行加权平均分别得到对该共享子词在源领域来源词组和目标领域来源词组的综合编码表示; 对每个共享子词,计算其源领域来源词组的综合编码表示和目标领域来源词组的综合编码表示之间的余弦相似度,并将余弦相似度与设定阈值进行比较,当一个余弦相相似度小于设定阈值时,此共享子词被认定为含义偏移子词; 其中,统计共享子词表中的每个共享子词在源领域数据的来源词形成源领域来源词组,统计所述共享子词表中的每个共享子词在目标领域数据的来源词形成目标领域来源词组具体包括: 统计源领域数据和目标领域数据每个单词以及其出现的频次; 遍历源领域数据和目标领域数据的单词表,如果当前单词被切分后的子词序列中包含该共享子词,那表明该单词是这个共享子词的一个来源词,且该来源词的出现频次就是该单词对应的出现频次; 记录所有来源词形成此共享子词的来源词组。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京大学,其通讯地址为:210000 江苏省南京市栖霞区仙林大道163号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励