Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 浙江大学;杭州一知智能科技有限公司赵洲获国家专利权

浙江大学;杭州一知智能科技有限公司赵洲获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉浙江大学;杭州一知智能科技有限公司申请的专利一种基于语义交互的弱监督语音-视频定位方法和系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116524915B

龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310461926.X,技术领域涉及:G10L15/18;该发明授权一种基于语义交互的弱监督语音-视频定位方法和系统是由赵洲;王晔;林旺;金涛;李林峻;成曦泽;陈哲乾设计研发完成,并于2023-04-26向国家知识产权局提交的专利申请。

一种基于语义交互的弱监督语音-视频定位方法和系统在说明书摘要公布了:本发明公开了一种基于语义交互的弱监督语音‑视频定位方法和系统,属于视觉语言跨模态定位领域。本发明首先采用由语音和对应文本组成的预训练数据集,基于四项协同任务预训练语音编码器;再采用由语音和对应视频组成的定位任务数据集,构成正样本对和负样本对,根据定位网络的预测结果,计算二元交叉熵损失函数项;以及,利用定位网络预测的正样本对的最高分数的候选片段,构建帧级别的正样本和负样本,通过声学‑视觉对比学习,获取基于互信息最大化的损失函数项;结合两项损失,对定位网络进行弱监督定位训练,实现高效的跨模态交互,提高了语音‑视频定位的准确性。

本发明授权一种基于语义交互的弱监督语音-视频定位方法和系统在权利要求书中公布了:1.一种基于语义交互的弱监督语音-视频定位方法,其特征在于,包括如下步骤: 步骤1,获取由语音和对应文本组成的预训练数据集,提取语音的时域特征和频域特征,再利用语音编码器对时域特征和频域特征进行编码,获取语音嵌入特征向量;以及,提取文本嵌入特征向量;所述的语音嵌入特征向量包括声学特征向量和语义特征向量; 步骤2,根据语音嵌入特征向量和文本嵌入特征向量进行声学-语义预训练,基于语音和文本之间的一对一语义关系,获取基于神经网络的时序类分类的损失函数项、基于信息噪声对比估计的损失函数项、基于负对数似然的损失函数项、基于相似性约束的损失函数项,共同预训练语音编码器; 步骤3,获取由语音和对应视频组成的定位任务数据集,构成正样本对和负样本对;对于每一个样本对,分别提取语音的时域特征和频域特征对应的语义特征向量,拼接后得到最终语音语义特征;以及提取视频嵌入特征向量; 步骤4,以样本对的最终语音语义特征和视频嵌入特征向量作为输入,利用定位网络预测每一个样本对中最高分数的候选片段,以最高分数作为对齐分数,根据对齐分数计算二元交叉熵损失函数项; 步骤5,利用定位网络预测的正样本对的最高分数的候选片段,构建帧级别的正样本和负样本,通过声学-视觉对比学习,获取基于互信息最大化的损失函数项; 步骤6,将步骤4和步骤5获得的损失函数项结合,得到最终的完整损失函数,对定位网络进行弱监督定位训练; 步骤7,获取待定位的语音和视频,分别利用语音编码器和视频编码器获取最终语音语义特征、视频嵌入特征向量;将两者交互,融合每一候选片段与语音,通过定位网络计算每一候选片段的分数,输出分数最高的候选片段,完成定位。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学;杭州一知智能科技有限公司,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。