深圳市长亮科技股份有限公司王巍巍获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉深圳市长亮科技股份有限公司申请的专利一种生产可用的代码解读大模型的构建方法及系统获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN120872408B 。
龙图腾网通过国家知识产权局官网在2026-05-08发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202510981699.2,技术领域涉及:G06F8/75;该发明授权一种生产可用的代码解读大模型的构建方法及系统是由王巍巍;邹伟杰;闵继勇设计研发完成,并于2025-07-16向国家知识产权局提交的专利申请。
本一种生产可用的代码解读大模型的构建方法及系统在说明书摘要公布了:本发明提供了一种生产可用的代码解读大模型的构建方法及系统,所述方法包括选取用于训练代码解读大模型的Base模型;选取从业务角度评测代码解读大模型最终效果的评分工具;基于GraphRAG构建代码解读知识图谱;基于SFT微调的后训练方式构建代码解读大模型。本发明方法,能够方便开发人员从技术视角更好的掌握源代码的逻辑,同时方便业务人员从交易的维度来理解整个端到端逻辑,为赋能代码解读助手AIAgent产品,以及赋能研发工艺平台资产与代码资产的双向同步等场景提供底层能力。
本发明授权一种生产可用的代码解读大模型的构建方法及系统在权利要求书中公布了:1.一种生产可用的代码解读大模型的构建方法,其特征在于,所述方法包括: 选取用于训练代码解读大模型的基础模型; 选取从业务角度评测代码解读大模型最终效果的评分工具; 基于GraphRAG构建代码解读知识图谱;包括:从GraphRAG输出的原始目录中挑选符合要求的parquet文件到挑选后的GraphRAG输出目录;从挑选后的GraphRAG输出目录,批量转换所有parquet文件到csv文件;预处理作为Edge边的数据源join_texu_units_to_entity_ids.csv和join_texu_units_to_relations_hip_ids.csv,使数据格式适配nebula-importer工具的导入;Python程序基于每个yaml配置文件调用nebula-importer工具,将csv数据导入到NebulaGraph;替换NebulaGraph导入模板文件的所有替换符placeholder,将其转换为导入工具nebula-importer可解读的配置文件,以给nebula-importer工具使用; 基于所述基础模型,采用SFT微调的后训练方式构建代码解读大模型,包括:采用开源的大模型微调训练框架LlamaFactory结合指令监督微调数据集对选取的qwen2-72b-instruct基础模型进行SFT微调,让基础模型学习指令监督微调数据集中的回答方式,即对代码的解读方式和回答格式,得到初版的代码解读大模型;对初版的代码解读大模型用测试集做代码解读的问答实验,找出问答中出现的badcase和不符合业务专家预期的回答,同时获取业务专家给出考题对应的标准答案,用考题、badcase、标准答案构造偏好数据集;采用开源的大模型微调训练框架LlamaFactory结合偏好数据集对初版的代码解读大模型进行dpo微调,让代码解读大模型学习用户的偏好,得到dpo后的代码解读大模型;对dpo后的代码解读大模型用测试集进行代码解读的问答实验,找出badcase构造偏好数据集,继续进行dpo,经过多轮的dpo优化,最终得到终版的代码解读大模型; 通过dpo惩罚重复来解决代码解读大模型推理时的复读机问题,包括: 针对出现重复复读机的例子进行泛化;由于复现泛化后的例子也出现了重复,因此不直接将出现重复的badcase例子的正确答案chosen和重复答案rejected放入dpo数据集;构造dpo偏好数据集,对于泛化后的例子,将标准答案即不重复的输出作为chosen,将复读机式的重复输出作为rejected;通过构造重复次数为2的幂次方的反例来完成;用LlamaFactory微调框架结合dpo偏好数据集基于当前会出现复读机问题的代码解读大模型进行dpo得到优化后的代码解读大模型。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人深圳市长亮科技股份有限公司,其通讯地址为:518000 广东省深圳市南山区粤海街道沙河西路深圳湾科技生态园一区2栋A座5层;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励