字体, 间距和字符定位
pdf 可以嵌入字体或使用精确的字符间距, 转换器可能找不到精确的字体而替换成别的字体, 不同字体会改变换行和间距, 还有些 pdf 把文本作为单个字符或小组绘制以控制精确位置,...表格和多栏难以检测
表格和多栏布局依赖空间对齐, 转换器寻找线条, 一致的间距或表格标签来重建单元格, 如果表格使用自定义边框, 隐形引导线或合并单元格, 工具可能把表格变成文本框列表, 栏目可能被合并成一个长栏目或内容顺序错乱..., 但许多 pdf 没有标签或是通过打印成 pdf 生成, 这会移除结构, 扫描的 pdf 是图片, 根本没有文本结构, 转换需要 ocr, ocr 错误会带来拼写和空格问题, 这些都增加了生成混乱 word...ocr 能修复扫描的 pdf 吗
ocr 可以从扫描图片中提取文本, 但准确度取决于扫描质量, 语言和字体, 即使是好的 ocr 也会出错, 并且不会自动恢复表格或标题等文档结构.
...转换时如何保留表格
使用具有高级表格识别的转换器或从原始来源导出表格, 如果 pdf 有清晰的单元格规则和边框, 转换器表现会更好, 否则就要在 word 里重建表格, 有时候 磨针工具软件 会给出重建流程的建议