Document
拖动滑块完成拼图
个人中心

预订订单
商城订单
发布专利 发布成果 人才入驻 发布商标 发布需求

请提出您的宝贵建议,有机会获取IP积分或其他奖励

投诉建议

在线咨询

联系我们

龙图腾公众号
专利交易 商标交易 积分商城 国际服务 IP管家助手 科技果 科技人才 会员权益 需求市场 关于龙图腾 更多
 /  免费注册
到顶部 到底部
清空 搜索
当前位置 : 首页 > 专利喜报 > 广西大学邓建新获国家专利权

广西大学邓建新获国家专利权

买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!

龙图腾网获悉广西大学申请的专利一种基于关键字与框线特征的期刊文献表格高效提取方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116070589B

龙图腾网通过国家知识产权局官网在2026-04-17发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211484163.2,技术领域涉及:G06F40/12;该发明授权一种基于关键字与框线特征的期刊文献表格高效提取方法是由邓建新;刘港;吴秀松;梁嘉威;唐伟博;贺德强;戴博林;农张华;黎业富设计研发完成,并于2022-11-24向国家知识产权局提交的专利申请。

一种基于关键字与框线特征的期刊文献表格高效提取方法在说明书摘要公布了:本发明提供一种基于关键字与框线特征的期刊文献表格高效提取方法,属于PDF文件信息提取领域,方法包括根据期刊表格框线与字符特点构建表格数据结构,表格数据结构由关键字与表格框线两部分组成,分别构建关键字清洗规则与表格框线清洗规则,利用关键字计算期刊表格区域的左上角坐标,利用表格框线计算期刊表格区域的右下角坐标,精确定位表格区域,最后输出表格数据。该方法特别针对期刊文献中的少框线表格设计,完全适用于中英文文献,可实现表格数据提取的全自动化,保证表格数据逻辑关系的准确性。通过新增关键字进一步实现相关领域表格的筛选,具有广泛的适用性。

本发明授权一种基于关键字与框线特征的期刊文献表格高效提取方法在权利要求书中公布了:1.一种基于关键字与框线特征的期刊文献表格高效提取方法,其特征在于:所述方法包括如下步骤: 步骤1:建立字符集合与线条集合,分页码解码PDF,获得页面的尺寸、各页所有字符集合Text、线条集合Curve及其信息状态参数,包括字符字号、字符横纵坐标、线条高度、线条横纵坐标; 步骤2:定义语言分类规则将PDF文献分为中文文献与英文文献,分别为中文文献与英文文献建立表格关键字; 步骤3:构造表格关键字集合Key,利用表格关键字特征清洗字符,获取初次清洗后的表格关键字; 步骤4:构造表格框线集合Line,利用表格框线特征清洗线条,获取初次清洗后的表格框线; 步骤5:为便于区分表格区域,根据文献是否为双栏排版将关键字集合Key分为右栏关键字集合KeyR及非右栏关键字集合KeyNR,将框线集合Line分为右栏框线集合LineR及非右栏框线集合LineNR; 步骤6:对比框线与关键字纵坐标,将属于同一表格的关键字与框线绑定,形成集合Table,并获取每个表格最后一条框线; 步骤7:根据关键字横纵坐标确定表格区域的左上角坐标,根据最后一条框线右下角横纵坐标确定表格区域的右下角坐标,表格矩形区域得以确定,输出表格数据; 步骤5中,关键字与框线分栏方式为:若关键字或框线的左端横坐标大于页面宽度的一半,则文献为双栏排版格式,关键字划分到集合KeyR,框线划分到集合LineR,否则,文献为单栏排版格式或者双栏排版格式,关键字划分到集合KeyNR,框线划分到集合LineNR,因此,右栏关键字集合KeyR只表示双栏排版中的右栏关键字,非右栏关键字集合KeyNR包括双栏排版中的左栏关键字、双栏排版中的跨栏关键字及单栏排版中的所有关键字,右栏框线集合LineR只表示双栏排版中的右栏框线,非右栏框线集合LineNR包括双栏排版中的左栏表格框线、双栏排版中的跨栏表格框线及单栏排版中的所有表格框线; 1 2 式1中,ki为第i个关键字,xkiL为第k个关键字的左侧横坐标,w为页面宽度;式2中,lj为第j条框线,xljL为第j条框线的左端点横坐标; 步骤6中,关键字与框线绑定建立在分栏后的基础上,即右栏关键字集合KeyR与右栏表格框线集合LineR组合为右栏部分,再按纵坐标绑定关键字与框线,非右栏关键字集合KeyNR与非右栏表格框线集合LineNR组合为非右栏部分,再按纵坐标绑定关键字与框线; 对比框线与关键字纵坐标的方式为:若框线纵坐标位于第i与第i+1个关键字纵坐标之间,则该框线与第i个关键字绑定,若框线纵坐标小于所有关键字纵坐标,则框线与纵坐标最小的关键字绑定,若框线纵坐标大于所有关键字纵坐标,则该框线为被孤立框线,将其删除,若第i个关键字与第i+1个关键字之间不存在框线,则第i个关键字为被孤立关键字,将其删除; 集合Table包括若干表格,每个表格包括一个关键字与若干条表格框线; 对比表格中框线的纵坐标,获取每个表格最后一条框线,作为每个表格的结束位置。

如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人广西大学,其通讯地址为:530004 广西壮族自治区南宁市西乡塘区大学东路100号;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。

以上内容由龙图腾AI智能生成。

免责声明
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。