昆明理工大学高盛祥获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉昆明理工大学申请的专利基于检索增强和知识蒸馏的汉越跨语言查询扩展方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN118673095B 。
龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202410807331.X,技术领域涉及:G06F16/3332;该发明授权基于检索增强和知识蒸馏的汉越跨语言查询扩展方法是由高盛祥;李京;朱恩昌设计研发完成,并于2024-06-21向国家知识产权局提交的专利申请。
本基于检索增强和知识蒸馏的汉越跨语言查询扩展方法在说明书摘要公布了:本发明涉及基于检索增强和知识蒸馏的汉越跨语言查询扩展方法,属于自然语言处理技术领域。本发明通过知识蒸馏和检索增强,将大规模语言模型的思维链生成能力和检索到的外部知识注入参数较少的多语言预训练模型中,从而提升其思维链生成能力。本发明相比查询扩展,跨语言查询扩展在多语言预训练模型在低资源语言场景下推理和生成能力表现能力。在汉越跨语言问答、汉越跨语言信息检索等下游任务中发挥着重要的作用。在MLQA、XQuAD公共数据集和构建的汉越跨语言查询扩展数据集上的实验结果表明,本发明的性能指标优于基线模型,MAP、Recall、NDCG、MRR分别提高了3.4%、1.6%、2.9%和3.4%。
本发明授权基于检索增强和知识蒸馏的汉越跨语言查询扩展方法在权利要求书中公布了:1.基于检索增强和知识蒸馏的汉越跨语言查询扩展方法,其特征在于:所述基于检索增强和知识蒸馏的汉越跨语言查询扩展方法的具体步骤如下: Step1采集查询文档数据,并收集汉越跨语言问答公共数据集,随后对数据进行预处理,构成实验数据集; Step2、在Step1的基础上,通过知识蒸馏和检索增强,将大规模语言模型的思维链生成能力和检索到的外部知识注入参数少的多语言预训练模型中,从而提升其思维链生成能力; Step3、在Step2的基础上,将多语言预训练模型在汉越检索数据集上进行微调,以提升模型在汉越跨语言检索上的性能,改善汉越跨语言查询扩展任务的检索效果; 所述Step2包括三个新的查询扩展任务模块:思维链生成模块、检索增强模块和跨语言查询扩展模块;具体步骤为: Step2.1、思维链生成模块通过构建原始中文查询的零样本提示模板,并将其输入大型语言模型以生成零样本思维链;利用大型语言模型作为教师模型,将其知识蒸馏到学生模型中; Step2.2、检索增强模块通过跨语言检索模型获取最相关的k个越南语文档;之后,通过检索增强提示模板,将中文查询语句和相关越南语文档输入mT5模型进行训练;训练的目标是生成零样本思维链,并通过不断迭代修正和完善检索增强后的链式思考,从而提升模型的推理和检索性能; Step2.3、利用Step2.1和Step2.2构建的查询-思维链数据对和融入通过原始查询语句检索到的前k个与越南语相关的文档,将原始中文查询与检索增强的思维链进行拼接,通过向量化处理查询和文档,检索出最相关的越南语文档。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人昆明理工大学,其通讯地址为:650500 云南省昆明市呈贡区景明南路727号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励