ComPDFKit PDF 转换 SDK V3.0有以下几个新功能:
我们选择了一个包含复杂文本和图像的 PDF——比典型的日常文档更复杂。
如您所见,V2.0 和 V3.0 均保留了整体布局。在 V2.0 中,文本框会与图片重叠或超出其原始边界——这些问题在 V3.0 中通过混合布局得到了很好的处理。但是,由于 V3.0 中的箭头文本框目前被识别为图片,因此其中的多行文本会使用固定布局进行恢复,这会导致文本看起来比较杂乱。此问题已列入修复列表。
在这里,我们选择一个较大的 PDF 文件,它具有两列布局和嵌入图像。
转成Word后,2.0版保留了双栏格式,但部分行出现错位,导致文本流线不连贯。3.0版则较好地还原了多栏格式和文本流线,但仍然存在一些间距问题。
转换包含大量文本的双列 PDF 时,左侧 GIF(V2.0 结果)显示每行都以换行符结尾,这意味着每行都被视为单独的行或文本框。这会导致编辑时布局发生偏移。相比之下,右侧 GIF(V3.0 结果)显示每个段落都被识别为段落,因此所有文本均可完全重排,没有不必要的文本框,从而提供自然的编辑体验。
为了检验结构元素的约简一致性,我们选择了带有标题和列表的试卷。
- 页眉和页脚
在 V2.0 PDF 转 Word 的过程中,页眉看起来完好无损,但进入页眉编辑模式后却发现没有任何可编辑的内容。这表明 V2.0 将页眉还原为纯文本,而不是真正的页眉元素。相比之下,V3.0 可以正确地将其转换为可编辑的页眉部分。
- 项目符号和编号列表
在 V3.0 的测试结果中,多项选择题被正确识别为编号列表,并且“编号”选项可见并处于活动状态——表明它们确实包含结构元素。而 V2.0 仍然将它们视为纯文本,而非列表结构。
通过本次效果评测,您可以感受到 ComPDFKit Conversion SDK V3.0 与 V2.0 相比,在 PDF 到 Office 的转换功能方面有了显著的增强。
全新由AI模型驱动的混合Flow+FixedLayout模型,有效弥合了精准视觉再现与无缝内容修改之间的差距。
ComPDF 在结构元素还原、布局准确性和内容可编辑性方面都有显著提升,尤其是在多列文档、详细表格和混合文本-图像布局等复杂情况下,展现了其全栈技术升级的价值。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。