南京邮电大学孙知信获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉南京邮电大学申请的专利一种基于融合特征和改进LSTM的文本分类方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120030160B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510144644.6,技术领域涉及:G06F16/35;该发明授权一种基于融合特征和改进LSTM的文本分类方法是由孙知信;钱宇成设计研发完成,并于2025-02-10向国家知识产权局提交的专利申请。
本一种基于融合特征和改进LSTM的文本分类方法在说明书摘要公布了:本发明公开了一种基于融合特征和改进LSTM的文本分类方法,包括获取文本数据,并划分为训练集和测试集;对文本进行预处理,得到清洗后的文本数据;使用Word2Vec方法提取文本的特征,得到静态特征向量;使用预训练的BERT中文模型提取文本的特征,得到包含上下文的特征向量;将静态特征向量和包含上下文的特征向量进行融合,得到融合特征;将训练集的融合特征输入至改进的LSTM网络进行模型训练;使用训练好的分类模型对测试集进行分类验证,以评估模型的效能;该方法旨在通过结合静态和动态特征向量,不仅利用了两者的优势,还通过注意力机制优化了输入特征的权重分配,加强了模型对关键信息的关注,本发明适用于各种需要高精度文本分类的领域。
本发明授权一种基于融合特征和改进LSTM的文本分类方法在权利要求书中公布了:1.一种基于融合特征和改进LSTM的文本分类方法,其特征在于,包括以下步骤: S1、获取文本数据,并划分为训练集和测试集; S2、对文本进行预处理,得到清洗后的文本数据; S3、使用Word2Vec方法提取文本的特征,得到静态特征向量; S4、使用预训练的BERT中文模型提取文本的特征,得到包含上下文的特征向量; S5、将静态特征向量和包含上下文的特征向量进行融合,得到融合特征; S6、将训练集的融合特征输入至改进的LSTM网络进行模型训练; S7、使用训练好的分类模型对测试集进行分类验证,以评估模型的效能; 步骤S3中,Word2Vec特征向量是通过训练Word2Vec模型获得的,Word2Vec模型使用文本数据进行训练,具体步骤包括: 使用清洗后的文本数据,采用Word2Vec模型进行训练,生成词嵌入向量,其中,Word2Vec模型采用CBOW方法,根据上下文窗口对每个词进行训练,得到每个词的768维向量表示,步骤包括: 利用邮件文本中的词汇,构建上下文窗口,选择一定范围内的上下文词作为输入,目标词作为输出; 将上下文词向量进行求平均处理,得到上下文的特征向量; 使用CBOW模型,通过上下文向量预测目标词,并通过Softmax函数对每个词的得分进行概率化处理,其中,所述Softmax函数具体公式如下: ; 其中,表示目标词的词向量,为上下文词的平均向量,为词汇表,为给定上下文条件下目标词的预测概率; 步骤S4中,使用预训练的BERT中文模型提取文本的特征时,具体步骤包括: 使用预训练的BERT分词器对邮件文本进行分词处理,得到词序列,所述词序列作为输入传递至BERT模型; 使用预训练的BERT中文模型对所述词序列进行编码,得到每个词的上下文相关表示,所述上下文相关表示为动态的词向量,其中BERT模型根据词汇在不同上下文中的出现情况,调整每个词的语义表示; 从BERT模型输出的编码结果中提取每个词的特征向量,所述特征向量通过最后一层的CLS标记得到文本的全局特征表示,其为768维向量,所述全局特征表示包含了上下文信息; 步骤S6中,改进的LSTM网络同时包含注意力机制和残差连接,所述注意力机制根据当前输入信息与前一时刻的隐藏状态信息动态地计算每个输入的注意力权重,并通过加权融合输入信息,优化LSTM的输入;所述残差连接在LSTM的每一层中引入,直接将当前时刻的输入信息与LSTM变换后的输出进行加和; 所述注意力机制通过计算当前时刻输入向量、前一时刻隐藏状态和细胞状态来生成注意力权重,将当前输入和计算得到的注意力权重相乘,得到优化后的输入向量输入到LSTM单元中,注意力权重公式: ; 加权输入公式: ; 其中是Sigmod激活函数,、为注意力机制的权重矩阵,为偏置,为当前时刻的注意力权重; 所述LSTM单元的残差连接通过以下方式实现: 对于第时刻的输入向量,LSTM变换后的输出为,残差连接通过将输入与输出相加得到最终的输出: ; ; 输出门: ; ; 细胞状态: ; 候选细胞状态: ; 输入门: ; 遗忘门: ; 其中,为当前的隐藏状态,为当前的细胞状态,、、、为不同门的权重矩阵,、、、为上一时刻隐藏状态对不同门的影响,、、、为偏置。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人南京邮电大学,其通讯地址为:210003 江苏省南京市新模范马路66号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励