能否选择不对文档中的图片进行截图另存 #767

ElsaReedz · 2024-10-22T08:46:34Z

我的程序需要对pdf文档做版面解析并提取为段落，但我所有对该文档的后处理所需的信息，即bbox坐标、版面成员分类和文本的ocr，通过model.json已经可以完全提供，因此我并不需要后续的转markdown部分。注意到在流程中对图片和表格截图的部分，最终这些截图只用于生成markdown，且这些截图会占用存储空间。因此希望是否可以提供参数选择以关闭对文档中的图片和表格截图（在不进行markdown生成时）

myhloli · 2024-10-22T08:50:56Z

你可以写个python脚本，只调用
magic_pdf.model.doc_analyze_by_custom_model.doc_analyze
方法，返回的结果就是model.json，自行写出到本地即可。

3300752199 · 2024-11-11T09:42:35Z

你可以写个python脚本，只调用 magic_pdf.model.doc_analyze_by_custom_model.doc_analyze 方法，返回的结果就是model.json，自行写出到本地即可。

这个方法调用过后还需要调用其他方法进行排序吗因为我看结果与demo跑出来的不太一样

3300752199 · 2024-11-11T09:43:18Z

你可以写个python脚本，只调用 magic_pdf.model.doc_analyze_by_custom_model.doc_analyze 方法，返回的结果就是model.json，自行写出到本地即可。

看json中文本都是乱序的

myhloli · 2024-11-11T09:45:51Z

@3300752199 doc_analyze 方法返回的是模型解析结果，是乱序的，需要执行后续的流程进行排序。

3300752199 · 2024-11-11T09:51:30Z

@3300752199 doc_analyze 方法返回的是模型解析结果，是乱序的，需要执行后续的流程进行排序。

好的谢谢

ElsaReedz added the enhancement New feature or request label Oct 22, 2024

myhloli closed this as completed Oct 27, 2024

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

能否选择不对文档中的图片进行截图另存 #767

能否选择不对文档中的图片进行截图另存 #767

ElsaReedz commented Oct 22, 2024

myhloli commented Oct 22, 2024

3300752199 commented Nov 11, 2024

3300752199 commented Nov 11, 2024

myhloli commented Nov 11, 2024

3300752199 commented Nov 11, 2024

能否选择不对文档中的图片进行截图另存 #767

能否选择不对文档中的图片进行截图另存 #767

Comments

ElsaReedz commented Oct 22, 2024

myhloli commented Oct 22, 2024

3300752199 commented Nov 11, 2024

3300752199 commented Nov 11, 2024

myhloli commented Nov 11, 2024

3300752199 commented Nov 11, 2024