中的图片和图表可能在文字上方或下方, 或使用透明和裁剪, 转换器必须决定图片是页面背景的一部分还是内嵌对象, 错误判断会把图片移离相关文字或把图片切成碎片, 扫描的 pdf 更难处理, 因为它们是文字的图片...表格和多栏难以检测
表格和多栏布局依赖空间对齐, 转换器寻找线条, 一致的间距或表格标签来重建单元格, 如果表格使用自定义边框, 隐形引导线或合并单元格, 工具可能把表格变成文本框列表, 栏目可能被合并成一个长栏目或内容顺序错乱...如何获得更干净的转换
如果可能使用原始源文件, 只有 pdf 时, 尝试专业转换器, 支持带标签的 pdf 和高级表格检测, 处理扫描页时, 先运行高质量 ocr 并检查语言和分辨率设置, 通过合并图层或导出简单字体来降低复杂度...为什么单词会被拆分或出现多余空格
因为有些 pdf 为了控制布局把字符单独放置, 转换器在解释这些分离片段为单词或行时可能插入空格或换行.
...转换时如何保留表格
使用具有高级表格识别的转换器或从原始来源导出表格, 如果 pdf 有清晰的单元格规则和边框, 转换器表现会更好, 否则就要在 word 里重建表格, 有时候 磨针工具软件 会给出重建流程的建议