当前位置 : 首页 > 专利喜报 > 中国科学院自动化研究所刘静获国家专利权

中国科学院自动化研究所刘静获国家专利权

买专利卖专利找龙图腾，真高效！查专利查商标用IPTOP,全免费！专利年费监控用IP管家,真方便！

龙图腾网获悉中国科学院自动化研究所申请的专利有声视频生成方法、装置、电子设备及存储介质获国家发明授权专利权，本发明授权专利权由国家知识产权局授予，授权公告号为：CN116524898B 。

龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉：该发明授权的专利申请号/专利号为：202310295030.9，技术领域涉及：G10L13/08；该发明授权有声视频生成方法、装置、电子设备及存储介质是由刘静;王卫宁;刘佳伟设计研发完成，并于2023-03-23向国家知识产权局提交的专利申请。

本有声视频生成方法、装置、电子设备及存储介质在说明书摘要公布了：本发明提供一种有声视频生成方法、装置、电子设备及存储介质，属于计算机技术领域，包括：对待推理文本进行预处理，得到待推理文本对应的文本标识序列；将文本标识序列输入至有声视频生成模型，生成待推理文本对应的有声视频；其中，有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具。本发明通过有声视频生成模型生成有声视频，能够实现同时生成视频信号及音频信号，进而根据视频信号及音频信号合成与待推理文本语义相匹配的、泛化性较好的有声视频，能够有效关注到音频模态信息，为人工智能研究提供重要的数据，有效满足用户的使用需求。

本发明授权有声视频生成方法、装置、电子设备及存储介质在权利要求书中公布了：1.一种有声视频生成方法，其特征在于，包括：对待推理文本进行预处理，得到所述待推理文本对应的文本标识序列；将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频；其中，所述有声视频生成模型包括自回归音视频序列生成模型、音视频向量量化自编码器、视频插帧模型、音频转换模型和音视频处理工具；所述自回归音视频序列生成模型为自回归式三模态联合Transformer神经网络Decoder模型；所述自回归音视频序列生成模型用于对用户输入的所述待推理文本对应的所述文本标识序列进行识别，通过文本语义理解、跨模态联系生成视觉标识序列以及音频标识序列；其中，所述跨模态联系为多模态信息之间的关联关系，所述多模态信息包括文本信息、视频图像信息和音频信息；所述将所述文本标识序列输入至有声视频生成模型，生成所述待推理文本对应的有声视频，包括：步骤21，将所述文本标识序列输入至所述自回归音视频序列生成模型，生成所述文本标识序列对应的视频图像帧离散标识序列以及音频频谱离散标识序列；步骤22，将所述视频图像帧离散标识序列和音频频谱离散标识序列输入至所述音视频向量量化自编码器的解码器，生成视频图像帧以及音频梅尔频谱；步骤23，将所述生成视频图像帧输入至所述视频插帧模型，合成无声视频；步骤24，将所述音频梅尔频谱输入至所述音频转换模型，合成音频信号；所述无声视频的时长与所述音频信号的时长相匹配；步骤25，将所述无声视频和所述音频信号输入至所述音视频处理工具，生成所述有声视频。

如需购买、转让、实施、许可或投资类似专利技术，可联系本专利的申请人或专利权人中国科学院自动化研究所，其通讯地址为：100190 北京市海淀区中关村东路95号；或者联系龙图腾网官方客服，联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息，力求客观、公正，但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解，仅供参考使用，不能作为本公司承担任何法律责任的依据或者凭证。

龙图腾网&IPTOP

设置信息完成注册

手机号绑定多个账号

请提出您的宝贵建议，有机会获取IP积分或其他奖励

中国科学院自动化研究所刘静获国家专利权

热门推荐

专利交易买卖与高校科技成果转化平台

专利交易

快速入口

知产工具

关于我们

咨询服务