Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 哈尔滨工业大学苏统华获国家专利权

哈尔滨工业大学苏统华获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉哈尔滨工业大学申请的专利一种基于大语言模型的语义聚焦的试题查重方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121031565B

龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202511157810.2,技术领域涉及:G06F40/194;该发明授权一种基于大语言模型的语义聚焦的试题查重方法是由苏统华;杨涵智;李亚鹏;于嘉阔;刘志鑫;李松泽;刘国鹏;陈鄞;王忠杰设计研发完成,并于2025-08-19向国家知识产权局提交的专利申请。

一种基于大语言模型的语义聚焦的试题查重方法在说明书摘要公布了:本发明公开了一种基于大语言模型的语义聚焦的试题查重方法,所述方法基于语料库构建与文本规范化,完成题目语料库的搭建及元数据标注;采用语义向量化表征策略,将语料库中的题目映射为稠密向量,并构建离线语义向量库;提出语义向量召回→SimHash去噪→Reranker模型重排筛选机制,解决传统字面比对无法识别同义改写的问题;提出多级筛选‑大模型深判‑在线阈值自适应协作架构,通过实时反馈持续迭代,实现语义级精准查重;通过启动即复核机制,根据人工复核库中的数据动态调整向量召回阈值和大模型深判阈值,以最大化查重的准确性和效率。本发明解决了同义改写漏网、短文本表征失效、静态阈值误报漏报的问题。

本发明授权一种基于大语言模型的语义聚焦的试题查重方法在权利要求书中公布了:1.一种基于大语言模型的语义聚焦的试题查重方法,其特征在于所述方法包括如下步骤: 步骤1、语料库构建: 基于现有数据爬取与处理方法,完成查重专用语料库的构建; 步骤2、语义向量预生成: 采用语义向量化表征策略,将语料库中的题目映射为稠密向量,并构建离线语义向量库; 步骤3、多阶段语义筛选: 在标准向量检索的基础上,结合选择题短文本特点,提出“多阶段语义筛选”机制完成筛选,具体步骤如下: 步骤3-1、向量索引构建: 步骤3-1-1、向量索引采用适合高维空间快速检索的结构,以优化候选题目的定位和距离计算; 步骤3-1-2、通过配置向量索引的构建参数,控制单簇的规模,确保检索效率; 步骤3-1-3、在将题目的语义向量导入向量索引前,对其进行归一化处理,以便利用欧氏距离来近似计算余弦相似度; 步骤3-2、用户输入向量化: 步骤3-2-1、当用户在本地系统中提交待查题目时,系统会对其进行标准化的文本预处理,包括清洗和停用词过滤,以确保与题库中题目的向量空间一致性; 步骤3-2-2、采用与索引向量相同维度的嵌入方法,将用户输入转换成归一化向量,作为检索的查询键; 步骤3-3、近似最近邻检索: 在本地构建的向量索引基础上,系统执行近似最近邻搜索,以用户输入的向量为基准,快速找出题库中与之最相似的一定数量的题目,检索结果包括题目ID及其与查询向量的距离; 步骤3-4、余弦阈值筛选: 步骤3-4-1、对检索结果进行余弦相似度计算,将距离转换为相似度得分; 步骤3-4-2、设定一个初始阈值,并定期使用本地优化算法根据验证集的表现更新该阈值,以最大化查准率; 步骤3-4-3、系统仅保留相似度得分高于阈值的题目,形成精简的候选集,输出的信息包括题目ID、相似度得分和向量距离; 步骤3-5、SimHash去噪: 对余弦阈值筛选后的精简候选集追加一轮局部敏感哈希过滤; 步骤3-6、Reranker重排序: 步骤3-6-1、加载预训练的Reranker模型,将经过SimHash去噪的候选题目与待查题目构造为输入对,格式为“{待查题目}[SEP]{候选题目}”,并批量送入Reranker模型,Reranker模型计算每个输入对的语义相似度得分,并根据得分对候选题目重新排序; 步骤3-6-2、从排序后的候选题目中选择排名最高的前k个题目作为最终候选结果; 步骤4、大模型深判: 采用大语言模型完成最终语义判定; 步骤5、阈值自适应: 通过“启动即复核”的机制,根据人工复核库中的数据动态调整向量召回阈值和大模型深判阈值,以最大化查重的准确性和效率,具体步骤如下: 步骤5-1、系统以“启动即复核”为唯一节拍:每当系统重新启动,便立即回溯本地人工复核库,将自上次关机以来累积的全部人工标签一次性纳入视野; 步骤5-2、若复核记录为空,则静默沿用既有的两级阈值,以保证查重逻辑的连续性;若复核记录非空,则以本批次样本为唯一依据,计算向量召回阈值θvec与大模型深判阈值θllm所对应的Precision、Recall与F1Score,并在预设区间内迭代寻优,目标始终锁定于最大化F1这一单一目标函数; 步骤5-3、寻优所得的新阈值对随即写入本地存储,倘若样本稀疏导致F1Score下降越过预设警戒线,系统则自动回滚至上一有效版本,并在本地日志中详细记载回滚时间、触发原因及新旧阈值差值,从而确保无论系统经历多长时间的停机,再次启动时两级阈值依旧与题库当前分布精准对齐,查全率与查准率始终处于最佳平衡点。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人哈尔滨工业大学,其通讯地址为:150001 黑龙江省哈尔滨市南岗区西大直街92号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。