北京交通大学戚鹏获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京交通大学申请的专利一种基于知识的多模态会议摘要生成方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117112778B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202311058266.7,技术领域涉及:G06F16/34;该发明授权一种基于知识的多模态会议摘要生成方法是由戚鹏;陶丹设计研发完成,并于2023-08-22向国家知识产权局提交的专利申请。
本一种基于知识的多模态会议摘要生成方法在说明书摘要公布了:本发明提供了一种基于知识的多模态会议摘要生成方法,包括如下步骤:S1,构建多模态会议知识图谱;S2,基于知识聚合的会议知识嵌入模型;S3,基于图像‑音频编码器及文本编码器的多模态嵌入;S4,面部情绪识别协同训练机制;S5,基于Transformer‑Decoder的会议解码。可以实现:实现了会议场景中音视频及情绪数据对理解会议内容的重要作用,打破了数据类型的屏障、全面整合并挖掘会议信息用于摘要生成。
本发明授权一种基于知识的多模态会议摘要生成方法在权利要求书中公布了:1.一种基于知识的多模态会议摘要生成方法,其特征在于,包括如下步骤: S1,构建多模态会议知识图谱; S2,基于知识聚合的会议知识嵌入模型; S3,基于图像-音频编码器及文本编码器的多模态嵌入; S4,面部情绪识别协同训练机制; S5,基于Transformer-Decoder的会议解码; 其中,S2具体包括以下步骤: S21,应用TransE工具处理知识图谱学习图谱实体及关系的初始化知识表示; S22,针对每个文本节点,以其为中心,沿着知识图谱的链接依次遍历多跳邻居节点以聚合知识表示; S23,对于第跳邻居节点,使用局部注意力激活组件识别重要的知识节点,并自适应地分配权重,将知识节点的嵌入加权和作为的第跳知识表示;具体为: 给定文本节点,初始化表示,其第跳邻居知识节点,对于任意知识节点,其权重计算如下: ; 其中,表示知识节点的知识权重,知识节点的向量转置表示,表示知识节点的向量转置表示,exp表示以自然常数e为底的指数函数; 得到权重系数后,通过计算这一跳所有知识节点的加权和来聚合的知识表示: ; 表示第跳的知识表示,表示知识节点的向量化表示; S24,由于离越远的知识节点,其知识影响力越小,因此设计知识削弱系数,将及各跳知识表示相加到一起,求得会议知识向量: ; 其中,代表知识削弱系数,用于削弱跳知识节点对于的影响;表示第跳的知识表示,表示第1跳的知识表示; S3具体包括以下步骤: S31,对于及对应的图像和音频,分别求得本文、图像及音频的初始向量表示; S32,将,代表句子的第个词,输入Bert工具,进行令牌嵌入、段嵌入、和位置嵌入,对三个嵌入得到的特征向量进行求和,得到的词级别嵌入表示; S33,对于图像,使用ResNet处理得到其细粒度的视觉特征表示; S34,对于音频,利用VGGish工具处理得到细粒度的听觉特征; S35,对于图像-音频编码器,使用将和嵌入到多模态公共空间中,得到前向多模态特征;具体为: 编码器使用将和嵌入到多模态公共空间中,其中,CNN-Encoder表示基于卷积神经网络的编码器,作用是将原始的向量进行降维,以求得原始图片、音频及文本的隐含向量表示: ; ; 其中,和是使用编码器求得的多模态隐含表示,将二者相加,作为前向多模态特征: ; S36,对于文本编码器,利用将嵌入到多模态公共空间中,得到后向多模态特征: ; S37,通过约束正例的前向和后向的多模态特征在多模态公共空间相接近,负例的相远离进行多模态的嵌入训练;具体为: 对于图像-音频及文本正例,约束求解的前向和后向的多模态特征在多模态公共空间相接近;相反,对于负例,,约束求解的前向和后向的多模态特征在多模态公共空间相远离;为此,设计如下损失函数来训练上述编码器: ; 其中,是包含正例和负例的数据集,是一个常数,是随机从语料中抽取与图像和音频不匹配的文本,为和的前向多模态特征,为正例的后向多模态特征,为负例的后向多模态特征,余弦相似函数用于评估前向多模态特征和后向多模态特征在多模态空间中的距离; S4用于增强多模态公共空间的泛化能力,具体包括以下步骤: S41,基于前向多模态表示,对接分类神经网络PyTorchDNNClassifier识别当前用户的情绪,情绪识别任务的损失函数表示如下: ; 其中,L为情绪表情标签的总数,考虑7类:愤怒、厌恶、恐惧、快乐、悲伤、惊讶、正常,是情绪真值,表示当前用户是都表示出了第类情绪,表示分类器对用户是否表示了第类情绪的预测概率,使用多分类交叉熵损失函数对情绪识别任务进行训练; S42,通过最小化多模态嵌入和情绪识别的总损失来进行会议多模态信息嵌入的协同训练,训练结束后,平均前后向多模态特征和作为会议的多模态向量表示;具体包括: ; 其中,表示文本的总量,表示多模态嵌入损失,表示情绪识别损失,为总体损失函数,通过联合优化两个任务的总损失,即最小化多模态嵌入损失和情绪识别损失来对会议的前向和后向多模态特征进行训练; 对于,其多模态向量如下: ; 其中,Average代表的是向量的平均池化,为前向多模态特征,为后向多模态特征; S43,将知识向量表示及多模态向量表示相拼接,构建成文本的最终向量表示,; S44,将会议文本序列的向量表示输入长短期记忆网络,得到会议的隐含向量表示,表示文本序列的个数; S5具体包括以下步骤: S51,将会议的隐含向量表示输入到解码器,解码开始时,输入一个起始token激活解码器,并结合得到一个输出预测; S52,在之后的每一步解码中,解码器以和前一步的输出作为输入,从而生成下一个输出预测; S53,重复上述过程,直到到达一个特殊的终止符号。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京交通大学,其通讯地址为:100044 北京市海淀区西直门外上园村3号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励