北京中科凡语科技有限公司邓彪获国家专利权
买专利卖专利找龙图腾,真高效! 查专利查商标用IPTOP,全免费!专利年费监控用IP管家,真方便!
龙图腾网获悉北京中科凡语科技有限公司申请的专利一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法获国家发明授权专利权,本发明授权专利权由国家知识产权局授予,授权公告号为:CN116306493B 。
龙图腾网通过国家知识产权局官网在2026-05-05发布的发明授权授权公告中获悉:该发明授权的专利申请号/专利号为:202211703505.5,技术领域涉及:G06F40/109;该发明授权一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法是由邓彪;翟飞飞设计研发完成,并于2022-12-28向国家知识产权局提交的专利申请。
本一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法在说明书摘要公布了:本发明方法提供一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法,利用PDFMiner抽取出PDF文档中所有的元素信息,进而从中提取出所有文本内容,然后对所有文本按行排序后依照从右向左的顺序进行排版。将筛选出所有的中英文字符、阿拉伯数字等从左向右排序的文本字符,并按照从左向右的顺序对其进行排序。最终我们将所有字符按对应格式插入到WORD文档中,从而使得重构后维吾尔语文档的内容与原始文档保持更高的一致性。本发明方法可以自动检测和提取维吾尔语PDF文档中从左向右表示的字符,然后将其按照从左向右的顺序插入到DOCX文件中的对应位置,从而使目标文档的排版尽量与原始文档保持一致。
本发明授权一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法在权利要求书中公布了:1.一种维吾尔语PDF文档中中英文文本、阿拉伯数字的提取和还原方法,包括步骤: S1输入PDF文件,利用PDFMiner对文本中的内容进行解析,获取PDF中所有元素的信息; S2对PDF中所有元素的信息进行过滤,从中提取出文本内容所对应的信息,在提取时,元素类型为“char”的元素即为文本所对应的内容; S3在获取所有PDF文档中所有页面的文本元素后,对文本进行行合并; S4若是维吾尔语字,所有维吾尔语字符的排列顺序进行反转,否则中文、英文、阿拉伯语字符的排序与其在PDF文档中的x0坐标值大小一致,即都是从左向右的方向,中文、英文、阿拉伯语字符按照正常顺序进行排列; S41对每一行中的所有字符进行检测,查找出每一行中连续存在的从左向右的字符; S42将每一行中的连续的从左向右的字符进行组合,构成一个文本块text_unit,该文本块的文本为所有字符从左向右的组合; S43在获取文本块的字符内容以及其坐标位置后,对文本块中所有字符的顺序进行反转; S5将所有从左向右的字符组合成文本块,并将文本块中的字符进行反转,将每一行中的所有字符进行合并,从而得到每一行所对应的行文本和该行文本的坐标位置,文本行坐标计算方法为:计算行文本的坐标位置l_x0,l_y0,l_x1,l_y1,其中整行文本最左侧的坐标位置l_x0即为最左侧字符的坐标x0,整行文本的底部坐标位置l_y0则为该行中所有字符的y0坐标出现频率最高的值,整行文本最右侧的坐标l_x1,即为该行最右侧字符的坐标x1,而整行文本顶部的坐标l_y1则为该行中所有字符的y1坐标出现频率最高的值; S6在得到每一行的行文本后,将每一行文本中的所有字符按顺序进行反转,从而得到所有字符按从右向左进行排序的文本行,该文本行即为维吾尔语文档所对应的文本行; S7将步骤S6得到的文本行按照从右向左的格式插入到DOCX文档中对应的行坐标位置; 步骤S3所述的文本合并时,首先按照字符底部的坐标位置y0对不同页面中的所有字符分别进行排序,在排序后,按照阈值α=6将所有字符划分为不同的行,即如果字符之间y0坐标的差值小于6,则这两个字符处于同一行; 步骤S4所述的PDFMiner解析出的每一行中的维吾尔语字符是按照x0值的大小进行排序; 步骤S42所述的文本块坐标计算方法为:计算文本块的坐标位置u_x0,u_y0,u_x1,u_y1,其中文本块最左侧的坐标位置u_x0即为最左侧字符的坐标x0,文本块的底部坐标位置u_y0则为该文本块中所有字符的y0坐标出现频率最高的值,文本块最右侧的坐标u_x1,即为该文本块最右侧字符的坐标x1;而文本块顶部的坐标u_y1则为该文本块中所有字符的y1坐标出现频率最高的值。
如需购买、转让、实施、许可或投资类似专利技术,可联系本专利的申请人或专利权人北京中科凡语科技有限公司,其通讯地址为:100190 北京市海淀区知春路63号51号楼10层1006;或者联系龙图腾网官方客服,联系龙图腾网可拨打电话0551-65771310或微信搜索“龙图腾网”。
以上内容由龙图腾AI智能生成。
1、本报告根据公开、合法渠道获得相关数据和信息,力求客观、公正,但并不保证数据的最终完整性和准确性。
2、报告中的分析和结论仅反映本公司于发布本报告当日的职业理解,仅供参考使用,不能作为本公司承担任何法律责任的依据或者凭证。

皖公网安备 34010402703815号
请提出您的宝贵建议,有机会获取IP积分或其他奖励