河海大学刘向阳获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉河海大学申请的专利一种基于嵌入模型的大数据主题分析方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN117113982B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202310337528.7,技术领域涉及:G06F40/258;该发明授权一种基于嵌入模型的大数据主题分析方法是由刘向阳;周康桥设计研发完成,并于2023-03-31向国家知识产权局提交的专利申请。
本一种基于嵌入模型的大数据主题分析方法在说明书摘要公布了:本发明涉及一种基于嵌入模型的大数据主题分析方法,首先使用Sentence‑BERT模型对预处理后各中文文本数据进行句嵌入表示,再利用投影降维UMAP算法对句嵌入后向量进行降维处理,然后通过HDBSCAN聚类算法对降维后的向量进行聚类,基于目标中文集中每条中文文本向对应主题类的分配,选择具有最高c‑TF‑IDF得分的各中文词来代表每个主题类;最后使用DSG模型对主题词进行词嵌入表示,计算不同主题词之间的相似度、以及不同主题类之间的相似度,进而对是否有新出现的主题类进行波动性检测。整个方案设计具有更高的主题一致性和主题多样性,能够及时准确的检测出新的热点诉求主题,并给出预警。
本发明授权一种基于嵌入模型的大数据主题分析方法在权利要求书中公布了:1.一种基于嵌入模型的大数据主题分析方法,其特征在于:按如下步骤A至步骤E,实现目标中文集的主题类分析; 步骤A.分别针对目标中文集中的各条目标中文文本执行数据预处理操作,获得各条目标中文文本分别对应的各中文分词,然后进入步骤B; 步骤B.使用基于BERT模型预训练模型微调的Sentence-BERT模型,分别针对各条目标中文文本对应的各中文分词进行句嵌入表示,获得各条目标中文文本分别对应的高维句子embedding向量,然后进入步骤C; 步骤C.根据预设邻域大小信息和预设低维目标空间,利用统一流形近似和投影降维UMAP算法,分别针对各条目标中文文本的高维句子embedding向量进行降维处理,获得各条目标中文文本分别对应的低维句子embedding向量,然后进入步骤D; 步骤D.根据预设最小生成类簇大小,应用基于层次和密度的HDBSCAN聚类算法,针对各条目标中文文本分别对应的低维句子embedding向量进行聚类处理,获得相对应的各个类簇,即作为目标中文集对应的各个主题类,然后进入步骤E; 步骤E.基于目标中文集所对应各个主题类分别包括的各低维句子embedding向量,获得该各个主题类分别所包括相应各条目标中文文本的各中文分词,然后应用c-TF-IDF算法,获得各主题类中各中文分词分别对应的c-TF-IDF得分,并获得各主题类中c-TF-IDF得分最大的预设个中文分词,构成目标中文集所对应各主题类中的各主题词,实现目标中文集的主题类分析,然后进入步骤F; 步骤F.基于DSG模型对主题词的词嵌入表示,获得目标中文集所对应各主题类中各主题词分别对应的高维向量,再结合历史主题类集合中的各历史主题类、以及历史主题类中的各主题词,通过相似性计算,实现目标中文集所对应各主题类中、相较历史主题类集合的新主题类分析; 上述步骤C包括如下步骤C1至步骤C3; 步骤C1.基于各条目标中文文本分别对应的高维句子embedding向量,获得两两高维句子embedding向量之间的距离,然后进入步骤C2; 步骤C2.分别针对各高维句子embedding向量,基于与高维句子embedding向量距离最近的预设k个其它高维句子embedding向量,构建该高维句子embedding向量对应加权k近邻图,进而获得各高维句子embedding向量分别对应的加权k近邻图,然后进入步骤C3; 步骤C3.根据预设低维目标空间中的预设最小距离,分别针对各高维句子embedding向量,以最小化交叉熵成本函数为目标,应用投影降维UMAP算法将高维句子embedding向量所对应加权k近邻图投影降维至预设低维目标空间,获得相对应的低维句子embedding向量,进而获得各条目标中文文本分别对应的低维句子embedding向量。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人河海大学,其通讯地址为:210000 江苏省南京市江宁开发区佛城西路8号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励