合肥中科融道智能科技有限公司张洁获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉合肥中科融道智能科技有限公司申请的专利一种基于图文问答多模态模型的电力缺陷图像检测方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117763107B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311773770.5,技术领域涉及:G06F16/332;该发明授权一种基于图文问答多模态模型的电力缺陷图像检测方法是由张洁;王启其;刘术娟;李瑞;杜健铭;陈红波;张辉;陶孟元设计研发完成,并于2023-12-21向国家知识产权局提交的专利申请。
本一种基于图文问答多模态模型的电力缺陷图像检测方法在说明书摘要公布了:本发明涉及一种基于图文问答多模态模型的电力缺陷图像检测方法,与现有技术相比解决了电力缺陷图像检测中场景复杂、缺陷种类多以及小的深度学习目标检测模型多、乱、杂、交互性低的缺陷。本发明包括以下步骤:多模态数据集的获取;电力缺陷知识数据集的获取;图文问答多模态模型的构建;图文问答多模态模型的训练;电力缺陷图像检测结果的获得。本发明通过创建多模态电力缺陷领域中文数据集,增加了模型电力缺陷领域的图文知识;融合LoRA和Q‑Former方法微调模型,降低模型参数量,提高模型对电力缺陷视觉和语义特征的提取能力,对齐了视觉与语义信息。
本发明授权一种基于图文问答多模态模型的电力缺陷图像检测方法在权利要求书中公布了:1.一种基于图文问答多模态模型的电力缺陷图像检测方法,其特征在于,包括以下步骤: 11多模态数据集的获取:获取多模态数据集并进行预处理; 12电力缺陷知识数据集的获取:获取电力缺陷知识数据集并进行预处理; 13图文问答多模态模型的构建:基于视觉模型和语言对话模型构建图文问答多模态模型; 所述图文问答多模态模型的构建包括以下步骤: 131选择预训练好的视觉模型VisionTransformer,用来提取电力图像的视觉特征; 132选择训练好的语言对话模型ChatGLM-6B,用来作对话的基础模型,提取文字的语义特征和回复提问的文字; 133将LoRA模块分别加入到视觉模型VisionTransformer的自注意力层、语言模型ChatGLM-6B的自注意力层,用来训练出电力方面的图像与语义知识;视觉模型与语言模型的LoRA模块添加层范围根据实际自注意层的层数来设定,参数LoRA_rank正常设置为12; 134利用Q-Former连接视觉模型VisionTransformer与语言对话模型ChatGLM-6B; 设定Q-Former包含两个Transformer模块,即图像Transformer和文本Transformer,同时共享self-attention层; 图像Transformer与冻结参数的视觉模型进行交互,用于提取视觉模型输出的图像特征,文本Transformer既充当编码器又充当解码器,在图像Transformer中引入可学习参数,通过self-attention层与文本进行交互,并设定交叉注意力cross-attention层与图像信息互动; 14图文问答多模态模型的训练:基于低秩适应LoRA方法、Q-Former进行图文问答模型的训练,其中,LoRA方法是一种低资源训练大模型的方法,Q-Former是一种多模态模型交互训练的transformer框架; 15电力缺陷图像检测结果的获得:通过多模态模型图文问答测试,图文问答多模态模型根据输入的图片和提问prompt回答识别出的电力场景、缺陷、缺陷知识。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人合肥中科融道智能科技有限公司,其通讯地址为:230000 安徽省合肥市高新区习友路2666号中科院合肥技术创新工程院1号楼416-C;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励