能否增加页眉页脚剔除开关参数，控制是否剃除页眉页脚内容 #626

guoguo0646 · 2024-09-18T02:07:12Z

目前版本[0.8.1]识别出pdf文档中的页眉页脚并做了自动剃除，在有些场景下由于页眉页脚里包含了些比较重要的内容需要在最终解析结果里保留页眉页脚的内容，能否增加页眉页脚剔除开关全局参数，并通过此参数控制是否剃除页眉页脚内容？

myhloli · 2024-09-18T02:35:57Z

middle.json中的discarded_blocks存储了每页被剔除的文本信息，可以自己写个逻辑转存出来。

skyantao · 2024-12-31T09:31:00Z

书本的页码没有被识别出来，我需要页码用于业务定位，怎么能输出呢？

discarded_blocks 里面也没有

myhloli · 2024-12-31T09:51:06Z

书本的页码没有被识别出来，我需要页码用于业务定位，怎么能输出呢？

discarded_blocks 里面也没有

只要页码的话，contentlist中有个pageidx字段代表页码

skyantao · 2024-12-31T09:53:54Z

我需要从目录的页码指向对应的位置，page_index 从0 开始的，前面有封面、版号、目录、序言等，导致无法获取正确的页码

guoguo0646 added the enhancement New feature or request label Sep 18, 2024

myhloli closed this as completed Sep 19, 2024

Provide feedback