南京邮电大学陈志获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利一种基于大语言模型的文本到SQL语句解析及其优化方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119917527B 。
龙图腾网通过国家知识产权局官网在2026-04-28发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411989503.6,技术领域涉及:G06F16/2452;该发明授权一种基于大语言模型的文本到SQL语句解析及其优化方法是由陈志;张广硕;岳文静设计研发完成,并于2024-12-31向国家知识产权局提交的专利申请。
本一种基于大语言模型的文本到SQL语句解析及其优化方法在说明书摘要公布了:本发明公开了一种基于大语言模型的文本到SQL语句解析及其优化方法。首先运用文本处理和语法分析技术,以细粒度的方式解析自然语言查询或命令,将其转化为语法和语义单元。该过程包括从输入问题中提取实体、关系、条件、限定词和操作符等要素。然后利用大型语言模型技术,训练一个可以用于文本到SQL语句解析的模型。接着采用反馈优化机制,来提高SQL语句解析的准确率。最后将得到的模型在公开的数据集上进行效果验证。本发明相较于仅关注文本到SQL语句生成的解析器,更注重在文本到SQL语义解析过程中的全面性和质量优化,有效地提升了自然语言处理在数据库领域应用的性能及处理数据库中复杂的语法结构的能力。
本发明授权一种基于大语言模型的文本到SQL语句解析及其优化方法在权利要求书中公布了:1.一种基于大语言模型的文本到SQL语句解析及其优化方法,其特征在于,包括以下步骤: 步骤1、输入一段自然语言文本; 步骤2、对步骤1获取到的自然语言文本去除其中的特殊字符和冗余空格,并将其英文标准化为小写字母,中文标准化为简体中文,得到预处理文本序列; 步骤3、通过大语言模型对步骤2获取到的预处理文本序列进行编码,提取自然语言查询的语义信息,包括关键意图、上下文关联性以及与数据库模式的映射关系; 步骤4、将步骤2获取到的预处理文本序列利用图神经网络GNN对数据库的结构信息进行建模,具体包括以下步骤:将预处理后的文本序列与数据库的元数据,结合起来构建一个异构图谱;数据库的元数据包括表名称、列名称、数据类型、主键和外键约束;异构图谱中的节点代表表、列、外键实体,异构图谱中的边表示表、列、外键实体之间的关系;图神经网络GNN通过消息传递和聚合操作,对数据库结构信息进行编码,捕捉表、列及其关系的结构信息,并将这些结构信息与查询的语义信息融合; 步骤5、对步骤3和步骤4使用一个基于门控机制的融合策略将图中的信息融合到编码器输出向量中;其中图中的信息是通过图神经网络GNN处理后所获得的关于数据库结构和查询语义的综合信息; 步骤6、对步骤5获取到的输出向量送入一个自回归方式的解码器中,该解码器由若干T5Transformer层组成;解码器根据编码器和图神经网络GNN模块输出的向量,逐步生成SQL语句的各个组成部分,包括选择的字段、表名、查询条件,直至完整生成SQL查询语句; 步骤7、将步骤6生成的SQL语句作为查询,在给定的数据库上执行; 步骤8、记录步骤7中错误的结果进行结果优化; 步骤9、输出结果; 所述步骤3的利用大语言模型作为编码器对预处理后的文本进行编码,其包括以下步骤: 步骤3-1、由步骤2得到一个自然语言问题G和一系列单词或标记q1,…,q|G|与数据库模式拼接成一个序列;其中表示为列集合,表示为表集合; 步骤3-2、将步骤3-1的得到的序列表示为: 其中为数据库名称,为各个表的列,*表示数据库中的特殊列标记; 步骤3-3、使用双向编码器学习输入x的隐藏状态h,具体公式如下: h=Encoderx 步骤3-4、隐藏状态的语义表示是通过Transformer块编码的,该块包含多头自注意力网络MHA和全连接前馈网络FFN,在第l层的隐藏状态表示为其中N是输入的最大长度; 步骤3-5、步骤3-4中的MHA部分首先将查询矩阵键矩阵值矩阵通过自注意力机制映射为一个注意力向量;公式如下: 其中,m是查询向量的数量,n是键或值向量的数量;MHA在每个注意力头上执行自注意力,分别表示针对每个注意力头的线性变换矩阵;T表示转置;QKT表示查询矩阵Q与键矩阵K的转置矩阵相乘;dm表示T5的维度,dk表示dm映射到查询向量的目标维度,dv表示每个注意力头中值向量的维度,h表示多头注意力机制中的头的数量; 步骤3-6、在T5的编码器模块中,dk=dv=dmh,MHA计算每个头的注意力输出后将它们连接在一起,得到多头自注意力网络的结果; 步骤3-7、语义隐藏状态还需要通过另一个组件FFN获取;公式如下: 其中,线性权重矩阵示为dff表示前馈神经网络的隐藏层维度,用于扩大特征空间;表示第l层的输入,b1、b2表示偏置向量,用于为每一层的计算提供偏移量; 步骤3-8、在步骤3-7之后进行归一化和残差连接,获得语义隐藏状态;公式如下: 表示归一化后的结果。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210023 江苏省南京市栖霞区文苑路9号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励