上海绘话智能科技有限公司邵珠全获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉上海绘话智能科技有限公司申请的专利一种基于词的短文本摘要抽取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN115841114B 。
龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211562370.5,技术领域涉及:G06F40/284;该发明授权一种基于词的短文本摘要抽取方法是由邵珠全设计研发完成,并于2022-12-07向国家知识产权局提交的专利申请。
本一种基于词的短文本摘要抽取方法在说明书摘要公布了:本发明属于NLP领域下文本摘要抽取技术领域,且公开了一种基于词的短文本摘要抽取方法,包括抽取模型和词序模型,所述词序模型步骤如下:第一步:数据标注一;S1.1:选择电销场景下50万对话短文本数据,人工审核纠正每句话的词语顺序;S1.2:使用jieba分词,原始词语顺序的标签为1,然后对每一句话都枚举所有的词语组合,标签为0,最后人工审核纠正所有的标签数据;第二步:数据预处理一。本发明通过抽取模型网络结构中使用膨胀卷积神经网络DilatedConvolutionNeuralNetwork,DCNN,且膨胀系数按照1、2、4、1的顺序设定,使模型能够尽可能多的捕捉文本信息,并增加了一个词序模型,提高了摘要的有效性和连续性,从而完美解决了抽取式摘要的不连贯问题。
本发明授权一种基于词的短文本摘要抽取方法在权利要求书中公布了:1.一种基于词的短文本摘要抽取方法,包括抽取模型和词序模型,其特征在于:所述词序模型步骤如下: 第一步:数据标注一; S1.1:选择电销场景下50万对话短文本数据,人工审核纠正每句话的词语顺序; S1.2:使用jieba分词,原始词语顺序的标签为1,然后对每一句话都枚举所有的词语组合,标签为0,最后人工审核纠正所有的标签数据; 第二步:数据预处理一; 第三步:模型构建一,将高位数据降维到2维; 第四步:模型评估一; S4.1:训练过程中,每当训练集跑完100个batch,都跑一次验证集,对验证集的预测标签和真实标签计算F1-score和loss; S4.2:当F1-score在10个batch之后都不提升的时候,就提前结束模型训练,这时候认为保存的最后一版模型为最优的模型,用最优的模型跑测试集数据,计算F1-score,当前的F1-score值就是对模型的评分; 所述抽取模型步骤如下: 第一步:数据标注二,选择电销场景下20万对话短文本数据,根据原文内容人工总结出简洁的摘要文本; 第二步:数据预处理二; 第三步:模型构建二,使用膨胀系数按照1、2、4、1顺序设定的膨胀卷积神经网络捕捉数据信息; 第四步:模型评估二; S4.1:设置一个阈值来判断当前词是否为抽取的摘要内容,若评分大于阈值,则认为该词被抽取出来,否则,则抛弃; S4.2:把所有大于阈值的词,穷举出所有的组合输入到词序模型中,取评分最高的词序列按顺序拼接起来作为摘要; S4.3:摘要和原文做rouge评分,用所有的rouge评分的平均值评估当前模型的好坏,rouge评分越接近于1越好; 所述模型构建一网络结构如下: 第一层:Embedding 第二层:BILSTM 第三层:Linear; Embedding是向量表示层,第二层是双向长短时记忆神经网络bilstm,Linear是线性层。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人上海绘话智能科技有限公司,其通讯地址为:200000 上海市浦东新区中国(上海)自由贸易试验区郭守敬路498号8幢19号楼4层19412室;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励