江苏濠汉信息技术有限公司;北京讲解源科技有限公司腾飞获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉江苏濠汉信息技术有限公司;北京讲解源科技有限公司申请的专利多模态大模型驱动的几何图像读取解析方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121438290B 。
龙图腾网通过国家知识产权局官网在2026-05-01发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202512000485.5,技术领域涉及:G06V20/62;该发明授权多模态大模型驱动的几何图像读取解析方法及系统是由腾飞;王晓鹏;何成虎;李学钧;戴相龙设计研发完成,并于2025-12-29向国家知识产权局提交的专利申请。
本多模态大模型驱动的几何图像读取解析方法及系统在说明书摘要公布了:本发明公开了多模态大模型驱动的几何图像读取解析方法及系统,涉及数据处理技术领域,该方法包括:接收用户上传的图像数据后,提取几何要素候选集合,每一候选元素设置初始置信度;并行启动几何标注识别通道,利用视觉编码器提取几何要素候选集合后,生成视觉嵌入,同时激活OCR通道进行文本识别,生成文本语义嵌入;通过置信加权的跨模态对齐融合,生成结构化几何表征,并将其输入混合推理识别模型,输出解析结果。本发明解决了现有几何图像解析方法无法有效同时处理图像和文本信息,对复杂几何结构的解析精度和效率低的技术问题,达到了通过融合多模态大模型,精准提取图像中的几何信息和文本标注,提升解析精度和效率的技术效果。
本发明授权多模态大模型驱动的几何图像读取解析方法及系统在权利要求书中公布了:1.多模态大模型驱动的几何图像读取解析方法,其特征在于,所述方法包括: 在接收用户上传的图像数据后,执行所述图像数据的自适应预处理,建立自适应预处理结果; 将自适应预处理结果输入至几何要素提取通道,所述几何要素提取通道通过联合边缘响应、连通性分析、形状分解提取构建几何元素候选集合,所述几何元素候选集合包括顶点候选、线段或弧段候选、角标候选、标注文本候选,且每一候选元素设置初始置信度标识; 并行启动几何标注识别通道,利用轻量化视觉编码器提取几何要素候选集合后,建立视觉嵌入,同步激活OCR语义解析通道,将题干与标注的文本进行文本识别后,建立文本语义嵌入; 对所述视觉嵌入、文本语义嵌入进行置信加权下的跨模态对齐融合,生成结构化几何表征; 将所述结构化几何表征输入至混合推理识别模型,输出解析结果; 对所述视觉嵌入、文本语义嵌入进行置信加权下的跨模态对齐融合,生成结构化几何表征,包括: 利用所述初始置信度标识建立视觉置信矩阵; 根据OCR语义解析通道中的OCR识别置信度、上下文一致性评分和题干关联度构建文本置信矩阵; 利用自监督置信度调度器执行视觉置信矩阵、文本置信矩阵的归一化处理后,基于视觉嵌入、文本语义嵌入执行双向注意力交互验证,生成结构化几何表征; 基于视觉嵌入、文本语义嵌入执行双向注意力交互验证,包括: 利用视觉嵌入中的几何拓扑字段与文本语义嵌入中的结构语义单元生成跨模态注意力查询组与键值组,并基于集合邻接关系生成几何感知掩码,用于限制注意力传播在拓扑允许范围内执行; 在视觉嵌入向文本语义嵌入映射的方向中,以几何要素为查询向量,以语义标签为键值,利用几何结构相似度、距离衰减因子和方向场一致性因子修正注意力权重,输出视觉主导注意力图; 在文本语义嵌入向视觉嵌入映射的方向中,以语义标签为查询向量,以候选几何要素为键值,在注意力计算中加入题干语义依赖度、语义冗余排斥因子、标注引用关系因子,输出文本主导注意力图; 对所述视觉主导注意力图、文本主导注意力图进行双向一致性交叉度量,生成结构化几何表征。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人江苏濠汉信息技术有限公司;北京讲解源科技有限公司,其通讯地址为:226000 江苏省南通市高新区世纪大道998号江海圆梦谷;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励