浙江大学;杭州高新区(滨江)区块链与数据安全研究院褚志轩获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉浙江大学;杭州高新区(滨江)区块链与数据安全研究院申请的专利一种基于语义逻辑的大模型防御方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN119378613B 。
龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202411962830.2,技术领域涉及:G06N3/0475;该发明授权一种基于语义逻辑的大模型防御方法是由褚志轩;郑昊伦;孙浥尘;王渤轩;任奎设计研发完成,并于2024-12-30向国家知识产权局提交的专利申请。
本一种基于语义逻辑的大模型防御方法在说明书摘要公布了:本发明公开了一种基于语义逻辑的大模型防御方法,通过基于语义逻辑分析和模型学习技术,系统地识别和阻断偏见的混淆效应,从而减少预训练数据中偏见对引导过程的影响,包含一个可解释组成,提供对生成输出与期望方向之间对齐的洞察,增强了引导过程的可解释性,增强了模型的透明度和用户的信任,该方法可能减少了对人工标注和计算资源的依赖,从而提高了资源效率,通过无偏见的引导表示,提高了模型在不同任务和领域中的泛化能力,这与现有技术泛化能力有限的问题形成对比,具有高可扩展性和适应性。可以应用在不同的语言模型中,可深入了解生成的输出与期望方向之间的一致性,从而增强转向过程的可解释性,同时减轻偏见的影响。
本发明授权一种基于语义逻辑的大模型防御方法在权利要求书中公布了:1.一种基于语义逻辑的大模型防御方法,其特征在于,包括: S1:获得足量的训练文本; S2:将文本输入到Transformer层,得到经过Transformer层中每层计算后的特征图; S3:通过一个线性回归分类器g对每层计算后的特征图进行评估,线性回归分类器g通过该计算每一个特征图后,均可得到一个向量,所述的向量中的值,表示分类为对应类别的概率,得到若干向量; S4:对若干向量进行排序,从低到高确定哪些层对目标属性最敏感,得到若干干预层; S5:使用一个低秩自适应分解器LoRA来替换若干干预层,得到新的语言模型; S6:使用无偏转述后的数据,训练新的语言模型,得到训练后的语言模型; S7:获得交互文本; S8:对交互文本进行提取表征,得到提取表征后的文本; S9:将提取表征后的文本输入到训练后的语言模型中,得到安全、无偏见的输出;所述的无偏转述具体为:给定输入提示I=[S,C],其中S是前缀引导提示,C是语义提示,首先计算S和C的Token长度,分别为Ls和Lc,当I经过原始语言模型的第l层时,得到中间表示rl,在经过上述的第l层LoRA后,会得到经过去迭代的中间表示将原始语言的中间表示集合定义为R=[r0,r1,rl,…,rD],将无偏转述后的中间表示的集合为其中-*表示非干预层,*表示干预层,r-*={rl1},其中l1为非干预层,其中l2为干预层,定义领域探测模块:相当于整个提示语的语义提示部分; 所述的使用一个低秩自适应分解器LoRA来替换若干干预层,得到新的语言模型具体为:若原始的中间层为r,替换后的无偏见中间层则为数学表示为: 其中,B和A分别是大小为d×m和m×d的矩阵,且m<<d,rl-1表示中间层的前一层; 所述的训练新的语言模型具体为:所述的训练为去偏训练,所述的去偏训练为通过定义预测重构损失:和去除偏见损失:组成最后的损失函数:L=Lpre+αLdebias,根据所述的损失函数来训练模型,其中,CEloss表示交叉熵函数,youtput表示原始模型的输出,表示新语言模型,表示经过无偏转述后的输入,GradRev表示使用梯度反转层来反转梯度的方向,使得在反向传播时,梯度的方向被反转,f表示用来识别混淆概念的多层感知机,η和α是超参数,ydirection表示输出的方向标签,即期望或不期望的属性或概念,而不是某个具体的分类;所述的S8中的提取表征具体为,使用LoRA对每个标记计算正负去偏见表示的差异,再计算该值的平均值,以获得引导方向,即:
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人浙江大学;杭州高新区(滨江)区块链与数据安全研究院,其通讯地址为:310058 浙江省杭州市西湖区余杭塘路866号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励