电子科技大学兰亮获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉电子科技大学申请的专利一种基于跨模态与对抗验证的方言语音增强方法及装置获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN121528197B 。
龙图腾网通过国家知识产权局官网在2026-04-14发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202610048851.6,技术领域涉及:G10L13/027;该发明授权一种基于跨模态与对抗验证的方言语音增强方法及装置是由兰亮;蒋伟;汪文勇设计研发完成,并于2026-01-15向国家知识产权局提交的专利申请。
本一种基于跨模态与对抗验证的方言语音增强方法及装置在说明书摘要公布了:一种基于跨模态与对抗验证的方言语音增强方法及装置,属于语音识别与增强技术领域。本发明通过将方言语音与唇动视频进行联合建模,显著提升了方言生成任务的准确度与自然度;构建了一套生成—对抗—反馈的闭环增强框架,通过引入多维度对抗性验证机制,让模型自进化,确保增强数据不仅多样,而且符合方言的真实使用习惯。创新性地将方言知识图谱与语音生成模型融合,实现了语义与文化层面的双重增强,使得生成的方言语音内容更符合其真实的语言环境与文化背景,尤其适用于濒危或小众方言的保护与传承。本发明可直接用于后续的方言识别、合成或保护等应用中。
本发明授权一种基于跨模态与对抗验证的方言语音增强方法及装置在权利要求书中公布了:1.一种基于跨模态与对抗验证的方言语音增强方法,其特征在于,包括以下步骤: 步骤1:多模态数据表征与知识嵌入;对方言音频、唇动视频、文转录的时序数据进行并行特征提取,然后对这三种特征进行融合;同时基于方言知识库预构建方言知识图谱KG; 步骤2:利用融合的特征与方言知识图谱,通过TransformerDecoder与声码器合成音频;具体的,生成器采用TransformerDecoder的自回归结构,接收融合的特征和方言知识图谱嵌入作为其输入,通过其深度网络结构生成目标方言语音的中间表示,产生的中间表示被送入声码器; 步骤3:多维度对抗训练与优化;声学判别器从不同时间尺度上对合成的音频进行判别;韵律声调判别器首先提取语音的基频的轮廓和能量信息,然后判断其韵律和声调模式是否符合目标方言的特征;语义KG一致性判别器首先将生成的音频通过一个预训练的语音识别模型转换为文本,然后判断该文本内容是否与知识图谱所代表的语义和文化语境一致;训练的总损失函数包括对抗性损失和辅助损失; 步骤4:使用训练好的模型进行增强语音推断任务。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人电子科技大学,其通讯地址为:611731 四川省成都市高新区(西区)西源大道2006号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励