https://arxiv.org/pdf/2504.20682
表格结构识别是文档分析中的一项关键任务。然而,变形表格中的几何变形削弱了内容与结构信息之间的关联性,进而阻碍了下游任务准确提取内容的能力。为应对这一挑战,我们提出了用于细粒度单元格坐标定位的OG-HFYOLO模型。该模型整合了梯度方向感知提取器(Gradient-Orientation-Aware Extractor)以增强边缘检测,并引入异构核交叉融合(Heterogeneous Kernel Cross Fusion)模块来促进多尺度特征学习,从而提高特征表达的准确性。结合用于在训练过程中更好地适应尺度特征的尺度感知损失函数(Scale-aware Loss function),以及用掩模驱动的非极大值抑制(mask-driven non-maximal suppression)取代传统的边界框抑制后处理,该模型实现了精细的特征表示和卓越的定位性能。为解决细粒度变形表格单元格定位的数据集限制问题,我们进一步提出了一个数据生成器,并构建了大规模的变形有线表格(Deformation Wired Table,DWTAL)数据集。实验表明,在DWTAL数据集上,OG-HFYOLO相较于所有主流实例分割模型,实现了更优的分割精度。该数据集和源代码已开源:https://github.com/justliulong/OGHFYOLO。
关键词:变形表格单元格定位 · 实例分割 · 梯度方向感知提取器 · 异构核交叉融合
在信息不断扩展的数字时代,表格作为结构化数据的主要载体,常用于传达财务报表、教育资料和科学实验结果中的关键信息。与此同时,扫描、摄影等技术的广泛应用增加了表格电子文档场景的复杂性。特别是在不同的光照、角度和环境条件下,扫描或拍摄的表格图像可能会出现各种变形。诸如弯曲、透视畸变和褶皱等物理变形,给表格结构识别技术带来了重大挑战。
表格结构识别技术旨在从表格图像中重建行列拓扑结构和语义信息,通过深度学习方法取得了显著进展[1]。尽管存在众多端到端模型,它们能够直接从图像生成HTML或LaTeX表格结构序列[2, 3],但其黑箱特性使得中间步骤不可控。相反,非端到端策略采用模块化方法,将单元格定位和结构推断解耦,为表格结构识别提供了更高的透明度。然而,此类方法的核心任务之一在于精确确定表格单元格的空间坐标,这需要识别图像中每个单元格的像素级位置。
当前针对单元格空间坐标定位的方法主要可分为两大类:一种方法是基于轮廓的目标检测,该方法能够有效识别轻微变形的单元格。然而,对于严重变形的单元格,该方法可能会遗漏关键的单元格内容信息,削弱内容与结构之间的关联性,并使内容提取等下游任务复杂化。另一种方法是文本框分割[4, 5],主要用于无线非变形表格,但在处理具有几何变形的有线表格时则面临困难。虽然关键点检测(图1b)部分解决了这些挑战,但它无法完全解决变形导致的错位问题,在严重变形的有线单元格坐标精确获取方面仍存在关键空白。
为填补这一空白,我们提出了一个基于实例分割的框架(图[1c]),该框架实现了像素级空间定位,并提供了全面的结构信息以支持下游任务。然而,将实例分割应用于变形表格中单元格的空间定位时,面临两大主要挑战:首先,表格单元格的密集排列以及相邻单元格之间的共享轮廓线使得边界信息的提取变得复杂。其次,合并单元格导致单元格尺度出现显著变化,如过宽或过窄的单元格,进一步复杂化了单元格的空间定位。实例分割旨在实现像素级的目标分离和语义解析,反映了计算机视觉中平衡精度和效率的探索。早期研究主要采用两阶段框架,代表性例子是Mask R-CNN[6],它通过区域提议生成和特征提取在复杂场景中实现了高度准确的掩模预测。然而,由于多阶段计算过程的固有延迟,此类方法难以满足实时应用的需求。随着单阶段方法的出现,研究人员放弃了区域提议机制,转而通过密集的特征图分析直接预测目标位置和掩模。尽管如此,单阶段模型在处理复杂目标轮廓和区分密集目标方面仍面临重大挑战,需要特征表达机制的创新以提高精度。
除了对象密集排列和尺度变化大带来的挑战外,当前用于变形表格识别任务的数据集也存在一定局限性。根据现有文献,虽然有一些针对变形表格的大规模开源数据集,如WTW[7]和TAL-OCR[8],但它们的标注粒度不足以支持像素级分割模型的训练。为解决这一问题,我们开发了一个能够从现有数据集创建新数据集的数据生成器。具体而言,我们从TAL-OCR和WTW中选取了轻微变形的表格,将其标签细化为分割标注,并使用这些标注数据与数据生成器生成大量变形表格数据,有效支持了实例分割模型的训练。利用开源数据集TAL-OCR和WTW的数据,以及150张离线收集和标注的图像,我们利用数据生成器创建了一个大规模数据集。该数据集根据来源分为两个独立的子集:DWTAL-s,主要包含来自TAL-OCR的8765张较简单的表格;DWTAL-l,主要包含从WTW扩展而来的19520张复杂表格。
为应对衍生数据集中密集目标和尺度变化带来的挑战,我们首先引入了梯度方向感知提取器(GOE)。该模块将图像纹理梯度方向和强度作为学习特征纳入基于YOLO的网络中,从而能够更全面地捕捉单元格边界信息。此外,在特征融合阶段,模型采用了异构核交叉融合(HKCF),该模块整合了瓶颈结构[9]和异构核选择协议(HKSP)[10]。这增强了跨尺度特征的融合,提高了模型在显著尺度变化下的检测性能。此外,我们为分割任务设计了一个尺度感知损失函数。该函数自适应地为不同尺度的对象分配权重,增强了模型对尺度变化的鲁棒性。在后处理阶段,传统的实例分割模型通常采用基于边界框的非极大值抑制(NMS)。然而,由于变形单元格的密集排列和复杂形状,边界框表现出显著的重叠。这导致基于边界框的NMS错误地抑制了正确的对象。为解决这一问题,我们引入了基于掩模的NMS,它直接使用预测掩模的交并比(IoU)进行抑制判断。本研究的主要贡献总结如下:
表格单元格空间坐标定位是表格结构识别中的一项关键上游任务,对于后续的表格解析和结构识别至关重要。研究人员提出了多种方法来解决单元格定位问题。例如,Prasad等人[4]提出了CascadeTabNet模型。该模型将表格文本框视为对象,并将文本框检测表述为实例分割任务,使用Cascade Mask R-CNN提取文本框掩码。这标志着实例分割算法在表格结构识别中的首次应用。然而,CascadeTabNet的实验仅限于非变形表格,且未充分探讨空单元格对下游任务的影响。遵循类似概念,Qiao Liang等人[5]开发了LGPMA模型。该模型通过软特征金字塔整合全局和局部信息,并使用实例分割进行文本框检测。与CascadeTabNet不同的是,LGPMA包含了一个针对空单元格的专门搜索算法。
为了解决变形表格中的空间坐标提取问题,Cycle-CenterNet[7]提出了一种基于轮廓角点的目标检测方法,通过检测单元格中心来预测四个轮廓点。尽管该方法在变形表格识别方面取得了进展,但仍存在局限性。严重的边界曲率增加了角点的回归难度,使用粗粒度目标检测框架可能会导致关键单元格信息的丢失。
变形表格带来的挑战迫切需要更细粒度的技术来保留表格中单元格的关键信息。基于这一需求,我们的工作将实例分割技术集成到变形表格的空间坐标定位中。通过利用实例分割的像素级精度,我们的方法实现了更精细的空间坐标提取,有效解决了变形表格结构中单元格定位的挑战。
表格结构识别的发展得益于众多开源数据集。早期数据集,如UNLV[11]和ICDAR-2013[12],主要用于评估传统方法。这些数据集包含的样本数量有限(通常少于1000张图像),且缺乏表格单元格的空间坐标标注。这些局限性降低了它们在现代基于深度学习的模块化表格识别流水线中的实用性。随着深度学习对数据集规模的需求不断增加,Xu Zhong和Minghao Li等研究人员引入了像PubTabNet[2]和TableBank[13]这样的大规模数据集。然而,这些数据集侧重于通过HTML或LaTeX序列进行结构标注,而忽略了空间坐标标注。类似地,FinTab[14]和SciTSR[15]等大规模数据集包含单元格坐标和行列关系,但主要数据来源于结构化数字文档(如PDF或LaTeX导出的文档)。
这些数据集高度标准化,不适合用于变形表格识别。尽管ICDAR2019[16]试图通过引入扫描的归档文档来解决这一问题,但其规模有限(3600张图像)且变形类型不足。CamCap[17]数据集专门为基于规则的算法设计,仅包含85个变形表格,数量太少,无法支持数据驱动的深度学习模型。在WTW数据集[7]引入之前,现有方法缺乏针对具有复杂背景和变形的自然场景中表格的稳健解决方案。该基准提供了专门为这类具有挑战性的场景设计的标注。然而,WTW使用基于四个轮廓角点的粗粒度空间坐标标注,对于严重变形的情况效果不佳。类似地,从真实世界摄影中收集的以教育为重点的TAL-OCR[8]数据集包含中等程度的变形,但缺乏单元格的细粒度实例分割级空间标注。这些数据集均未充分解决识别严重变形表格结构的挑战。
与两阶段实例分割模型相比,基于单阶段YOLO的模型在实例分割任务的速度和准确性方面表现出均衡的性能,吸引了大量研究努力来增强YOLO框架。例如,YOLOMask[18]和PR-YOLO[19]将CBAM模块集成到YOLOv5[20]中,以减少背景噪声干扰。类似地,YOLO-SF[21]将CBAM模块集成到YOLOv7[22]中,以提高对小物体特征的敏感性。YOLO-CORE[23]提出了多阶段约束(极坐标距离损失和扇形损失)用于直接轮廓回归,以提高掩码边界精度。YUSEG[24]将UNet与YOLOv4[25]结合,以解决密集物体中的模糊分割问题。TTIS-YOLO[26]通过多尺度高效跨阶段模块、双向跨尺度连接和动态梯度优化,提高了复杂道路场景中的实例分割准确性。GHA-Inst[27]通过优化YOLOv7的特征融合和输出层,并引入全局混合注意力(GHA)模块来增强关键特征保留,缓解了实例遮挡和背景干扰问题。
尽管这些进展适用于多种场景,但据我们所知,现有研究尚未将基于YOLO的分割模型应用于变形表格中单元格的空间坐标定位。由于目标尺度变化极大、单元格形状复杂以及目标排列密集,这项任务带来了重大挑战。
本节首先概述数据生成器的实现,然后简要介绍从该生成器派生的DWTAL数据集。
深度学习本质上是数据驱动的,数据集的规模和质量是决定模型性能的关键因素。为了生成足够大且高质量的数据集,我们提出了一种数据生成器,该生成器从现有图像和标注中创建扭曲图像和相应的标注。这些扭曲经过精心设计,以模拟现实世界的变形场景。具体来说,生成器采用了两种扭曲技术:波浪扭曲和圆柱扭曲。此外,它还根据原始光照调整图像亮度,以模拟现实世界摄影中的自然光照变化。接下来的三个小节详细介绍了这两种扭曲技术和亮度调整策略的实现。
波浪扭曲是一种基于三角函数的图像扭曲技术,可创建波浪状变形。该技术模拟了将图像粘贴到柔性曲面(如波纹管或折叠织物)上引起的变形,涉及基于正弦或余弦函数的扭曲以及人为引起的变形。这种扭曲会引入严重变形,对表格结构识别构成重大挑战。具体的三角函数扭曲变换在公式1中定义如下:
其中,和表示原始图像中的坐标,而和表示扭曲后的坐标。参数对应于波长,控制变形周期(值越大,变形周期越短,导致图像扰动越频繁)。振幅控制变形强度,值越高,变形越严重。和均为可调参数。
圆柱扭曲通过扭曲图像内容来模拟圆柱表面变形。该方法模拟了书籍或报告中装订线压缩引起的变形、圆柱表面的照片或拍摄悬空文档时的弯曲变形。这种变形在现实世界场景中很常见,并满足了文档直立方向的实际需求。因此,扭曲变换仅沿文档的垂直方向(轴)应用,同时保持水平轴(轴)不变。圆柱扭曲变换在公式2中定义如下:
其中,和表示原始图像坐标,和表示扭曲后的坐标,是图像宽度,作为变形因子(值越高,变形越明显),定义了扭曲轴参数。参数指定了圆柱曲率的中心轴。值越大,轴向左移动,靠近轴的区域变形越轻微,而远离轴的区域变形越强烈。和均为公式中的可调参数。
现实世界场景中的摄影图像通常因光照角度而出现阴影,阴影位置随光照方向变化。大多数阴影源自相机设备,最暗的区域通常位于图像的四个角之一附近。我们提出了一种光照调整机制,该机制首先使用公式3计算整体图像亮度。该公式源自标准清晰度电视标准ITU-R BT. 601[28]:
其中,、、分别表示图像背景中红、绿、蓝通道的亮度值,而表示整体亮度(值越高,图像越亮)。
如果图像亮度低于预定义阈值,则不添加额外阴影。否则,在四个图像顶点之一附近随机选择一个阴影中心,并按以下方式重新计算每个像素的亮度值:
其中,表示中心亮度(阴影峰值强度,取值范围为,值越高表示亮度越大),表示边缘亮度(阴影最弱强度,也在范围内),是图像对角线长度,测量像素与阴影中心之间的欧几里得距离。和均为可调参数。
数据生成器通过协调参数随机化整合了三种操作(波浪扭曲、圆柱扭曲和光照调整)。对于波浪扭曲,振幅从中均匀采样,而波长则通过比例因子动态约束以避免不现实的高频扭曲:与成正比增加,并最终从中选择。对于圆柱扭曲,曲率轴遵循在内的截断正态分布,变形因子根据自适应采样——较小的(靠近图像中心)对应较轻微的变形(),而较大的(偏离中心)则线性减少以强制执行物理上合理的衰减。对于光照调整,仅当图像亮度超过阈值时才添加阴影,中心亮度和边缘亮度控制强度梯度。这些参数间依赖关系确保生成的扭曲模拟自然变化,同时避免不合理的伪影。
数据生成器能够从有限的轻度变形表格中大规模合成变形表格数据。尽管DWTAL数据集包括150个收集的样本,但它主要依赖于两个公共自然场景数据集:TAL-OCR和WTW。首先,从TAL-OCR和WTW中选择轻度变形表格,使用角点坐标生成细粒度分割掩码。然后,这些掩码由数据生成器迭代处理,以产生多样化的变形表格图像。这两个源数据集具有不同的特征。TAL-OCR包含以教育为重点的图像,具有清晰的表格结构和简化的背景,导致派生数据相对简单。为了增强多样性,将收集的样本与TAL-OCR派生数据合并,形成一个名为DWTAL-s的紧凑数据集,该数据集共有8765张图像。相比之下,WTW具有更复杂的背景和更丰富的内容,能够创建一个更大、更具挑战性的数据集,名为DWTAL-1,该数据集共有19520张图像。
数据集划分。两个数据集均遵循相同的划分协议。为了确保训练集和测试集中变形类型的均匀分布,每个数据集的80%随机分配给训练集,20%分配给测试集。最终,DWTAL-s数据集在训练集中有7012张图像,在测试集中有1753张图像,而DWTAL-1数据集在训练集中有15616张图像,在测试集中有3904张图像。
派生数据集保留了其父集合的关键特征,如弯曲变形、透视畸变、多色背景、表面不规则性和光照变化。一个显著改进是包含了表格单元格的像素级实例分割标注。然而,所有图像仅包含单个表格实例。此外,已公开发布了带有逻辑坐标标注的数据集版本,以促进更广泛的研究应用。
图3展示了OG-HFYOLO的整体架构,该架构采用了YOLO框架,并包含三个核心组件:特征提取主干网络、特征融合颈部和检测头。为了增强纹理特征提取,模型将下采样后的特征图输入到梯度方向感知提取器(Gradient Orientation-aware Extractor, GOE)中,并沿着通道维度将其与原始输入特征进行拼接,生成包含丰富纹理信息的融合特征表示。主干网络采用了CSP-Unit模块,每个模块包括一个的下采样卷积、SiLU激活函数、批归一化以及在YOLOv5中使用的跨阶段部分网络(Cross-Stage Partial Network, CSP)[29]。通过五次下采样操作,主干网络生成了多尺度特征图P3、P4和P5。
在特征融合过程中,提取的特征通过特征金字塔网络-路径聚合网络(FPN-PAN)[30]通路进行集成。与标准的YOLO实现不同,我们的模型在跳跃连接后引入了一个异构卷积核交叉融合(Heterogeneous Kernel Cross Fusion, HKCF)模块,以增强跨尺度特征交互。融合后的特征随后通过CSP块进行细化,再传递给检测头。检测头保留了YOLOv5的基于锚点(anchor-based)[31]的设计,使用预定义的锚点框进行分类和边界框回归,并通过非极大值抑制(Non-Maximum Suppression, NMS)[32]过滤冗余检测。
我们发现,物体密度是变形表格单元格空间坐标定位的主要挑战。模型对轮廓提取的不准确可能导致相邻的小单元格被错误地合并成大的单元格。在特征融合过程中,这种聚合会逐渐模糊尺度变化,最终降低预测精度。 在密集场景中,实例分割的准确性受到模型感知轮廓细节能力的限制。方向梯度直方图(Histogram of Oriented Gradients, HOG)[33]旨在检测复杂的人体轮廓,认为精细的梯度和精确的方向分箱对于捕捉复杂的轮廓至关重要。其核心原则为密集和复杂物体检测提供了重要见解:如图4所示,HOG将图像划分为多个网格,并将每个网格内的梯度特征解耦为梯度方向和梯度强度。然后,它统计每个方向上的梯度强度以形成直方图。其核心思想是同时捕捉梯度的幅度信息和方向先验,从而增强轮廓的几何判别能力。
梯度方向感知提取器(GOE)基于这一原理运作,使模型能够学习轮廓细节的梯度强度和梯度方向特征。这有效地增强了模型对复杂轮廓和密集排列物体的识别能力。 图5展示了所提出的梯度方向感知提取器(GOE)的内部架构。该模块将编码纹理信息的特征图作为输入。GOE首先使用不同的解耦算子(公式5)将输入特征图分解为水平梯度方向特征图和垂直梯度方向特征图。
为了保留解耦算子和的方向先验,它们的权重被初始化为传统的边缘算子。在训练过程中,卷积核参数约束被放宽。这使得网络能够根据任务要求(例如,变形边缘增强、噪声抑制)自适应地调整梯度响应权重,从而克服标准边缘算子的固有几何限制。
在获得解耦后的水平梯度方向特征图和垂直梯度方向特征图后,该模块采用不同的策略来整合两个方向上的梯度特征:一方面,GOE通过公式6计算梯度幅度以生成梯度强度特征图;另一方面,GOE根据公式7进行通道拼接以导出梯度方向特征图。
GOE模块最终根据公式8聚合梯度强度特征图和梯度方向特征图。它首先对通道编码的应用方向注意力,将不同方向的梯度信息映射到单独的通道中。然后,编码后的特征通过Softmax[34]进行归一化。随后,梯度强度特征图通过与通道编码的梯度方向特征图的哈达玛积进行加权。由于每个方向上的梯度是相互独立的,因此采用实例归一化(IN)[35]来稳定模型训练,最终生成同时封装梯度方向和强度特征的特征输出。
方向注意力:梯度方向感知提取器(GOE)模块中的方向注意力机制旨在通过可学习的卷积操作编码梯度方向性,将几何先验与自适应特征学习相结合。受方向梯度直方图(HOG)中方向分箱策略的启发,我们使用从极坐标变换中导出的方向基向量来初始化卷积核。具体来说,连续的角度空间被均匀划分为个离散的分箱,第个分箱的中心角度定义为。对于每个角度,对应的笛卡尔单位向量计算为:
在正交坐标系中明确表示梯度方向。这些向量被结构化为参数矩阵,其中每一行对应一个方向基:
其中表示外积扩展以匹配卷积核的4D张量结构。该矩阵作为卷积层的初始权重,将输入梯度场(水平和垂直分量)映射到个方向特定的特征通道。在训练过程中,卷积核权重通过反向传播动态优化,允许网络抑制噪声方向同时放大判别性方向模式。与静态HOG描述符不同,这种可学习机制能够适应特定任务要求,例如在密集表格单元格中增强变形边界。最终输出通过通道拼接将方向感知特征与原始纹理表示相结合,为下游分割任务提供了几何基础且灵活的基础。
卷积神经网络中的层次特征学习机制表明,浅层、高分辨率的特征图更擅长捕捉低级视觉特征,如边缘和纹理。相比之下,深层更侧重于语义抽象和全局结构建模[36]。基于此,我们在主干网络的第一个卷积下采样层之后集成了梯度方向提取器(GOE)。这利用了浅层的高空间分辨率来精确捕捉方向梯度特征。图6展示了GOE模块在从第二个下采样特征图中进行早期特征提取时的有效性。通过引入所提出的提取器,网络在早期阶段为具有颜色干扰和模糊单元格轮廓的图像引入了几何先验。这为后续的跨层特征融合奠定了细粒度的基础。
在这里插入图片描述
除了密集的目标分布外,表格单元格分割还面临着由合并单元格引起的极端尺度多样性带来的挑战。水平合并会创建跨越多个列的宽跨度物体,而垂直合并则生成跨越多个行的高窄物体。这样的目标要求模型具备多粒度感知能力。YOLO系列通过多尺度检测头来解决尺度变化问题。高分辨率特征图检测小目标,而低分辨率特征图则关注大目标。然而,传统的固定大小卷积核难以适应表格中单元格特征的形态多样性。受YOLO-MS[10]的启发,该模型提出通过核多样性匹配目标多样性,并引入了异构卷积核选择协议(Heterogeneous Kernel Selection Protocol, HKSP)[10],我们结合了HKSP的概念,并集成了非对称交叉卷积[37]来设计一个异构卷积核交叉融合(HKCF)模块。如图7所示,该模块采用瓶颈结构以降低计算复杂度。如图7所示,该模块使用瓶颈结构来降低计算复杂度。输入特征图首先通过卷积进行通道缩减,以获得低维特征。然后,核大小为的模块在这个缩减的通道空间中提取特征。最后,和沿着通道维度进行拼接。原始通道维度通过另一个卷积恢复,以输出特征图。计算流程可以表示为:
如公式12所示,在异构卷积核交叉融合模块中,输入特征图首先通过通道注意力桥接器(Channel Attention Bridge, CAB)[38]进行处理。CAB使用全局平均池化和多层感知器来生成通道权重,动态增强与物体形态高度相关的特征通道,从而缓解瓶颈结构降维带来的信息损失。为了应对合并单元格带来的极端窄高和宽扁挑战,该模块用异构交叉卷积替换了标准卷积。该操作并行部署水平扩展核()和垂直扩展核()。这两个分支分别捕捉跨越列的合并单元格的水平连续性特征和跨越行的合并单元格的垂直长距离依赖关系。这两个分支的输出相加,以精确适应不同尺度物体的几何特征。遵循HKSP,从浅层到深层的特征融合图中逐步应用核大小为3、5、7的交叉卷积。最后,原始输入通过残差连接添加到的输出特征图中,生成最终输出特征图。
在基于锚点的实例分割框架中,物体损失通常依赖于交并比(Intersection over Union, IoU)及其变体来衡量预测边界框与真实边界框之间的几何偏差。然而,传统的CIoU损失[39]对于具有极端长宽比的物体具有模糊的优化方向,因为它将长宽比和中心距离计算耦合在一起。这导致边界框回归精度降低。为了解决这个问题,我们用EIoU损失[40]替换了CIoU。EIoU明确解耦了宽高优化路径,使得对长宽比敏感的物体能够调整梯度方向。 对于掩码损失,YOLO框架使用二元交叉熵损失()如下:
其中表示掩码中的总像素数,表示真实掩码中的第个像素,是预测掩码中的第个像素。 然而,仅依靠二元交叉熵损失忽略了单元格背景与整体表格背景之间的固有相似性,其中背景像素在数量上占主导地位。为了防止模型偏向高频背景类,我们将Dice损失[41]集成到基础分割损失中。与关注逐像素概率校准的交叉熵损失不同,Dice损失针对区域重叠进行优化,优先考虑分割物体的结构完整性。这种方法增强了边缘对齐和区域连续性。Dice损失公式定义如下:
其中表示逐元素乘法。 基础损失通过求和结合了二元交叉熵和Dice损失:
在原始损失函数中,YOLO通过物体面积项的倒数对损失进行归一化,以平衡不同大小物体的影响,如下所示:
其中和表示实例的边界框裁剪区域的高度和宽度,对应于物体实例掩码的面积(像素数)以进行归一化。
这种设计旨在平衡不同尺度物体之间的损失幅度,防止大物体由于其像素优势而主导优化方向。然而,这种反比例补偿机制具有固有的数学局限性:虽然函数在时趋近于无穷大,符合对小物体进行更强补偿的直观需求,但其二阶导数揭示了快速增加的曲率特性。这种数学性质导致当目标面积低于临界阈值(例如,)时,补偿强度呈现近乎垂直的增长趋势,可能引发梯度突变问题。
为了建立更平滑的尺度适应机制,我们在原始归一化的基础上引入了对数加权函数。这种设计的数学优越性体现在其微分性质上:其一阶导数与原始函数相比,对小尺度变化的响应更为平缓。这种缓和在关键的小目标区域()中尤为重要。同时,其二阶导数保持凸性,同时显示出比函数()低得多的曲率,从而避免了过度激进的补偿。 从函数空间的角度来看,这些组件形成了一个互补的优化:提供了基础补偿强度,确保了对小物体的必要损失放大,而则作为一个调制器,通过其渐进增长特性抑制曲率突变风险。这种双重复合结构保持了连贯的极限行为——当时,两个函数都趋近于无穷大,而当时,收敛于1,确保大物体不会受到额外的抑制。由此产生的尺度感知损失函数为:
其中表示图像中的实例数量,和表示实例的边界框裁剪区域的高度和宽度,对应于实例的面积。 尺度感知损失实现了三级优化:在微观层面上,对数项平滑了小目标区域的梯度变化;在中观层面上,双函数协同作用在过渡区域()中保持了补偿连续性;在宏观层面上,保留了大目标()的优化稳定性。
基于锚点的检测模型通常依赖于非极大值抑制(NMS)作为核心后处理操作,以使用交并比(IoU)阈值过滤冗余检测框。传统的NMS在稀疏分布的物体场景中表现稳健,但在密集变形的表格单元格检测中表现出固有的局限性:当相邻单元格由于几何变形而表现出高度重叠的边界框时,IoU准则会错误地将它们识别为同一实例,从而抑制了置信度较低但定位正确的框。尽管Soft-NMS[42]通过置信度衰减机制部分缓解了过度抑制问题,但复杂物体形状引起的严重重叠仍然导致IoU值膨胀,未能解决根本原因。为了解决这个问题,受SOLOv2[43]中掩码竞争策略的启发,我们放弃了边界框抑制范式,并引入了掩码驱动的非极大值抑制(Mask-Driven Non-Maximum Suppression),该抑制使用像素级的Mask_IoU进行冗余消除。该指标定义为:
其中和是两个预测掩码的二进制矩阵。只有当低置信度掩码与高置信度掩码的Mask_IoU超过阈值时,才会被抑制。与传统的IoU准则相比,Mask_IoU直接量化掩码重叠,绕过了由边界框重叠引起的空间不匹配问题,从而在复杂的表格布局中保留了更精确的单元格实例。
实验中使用的数据集为DWTAL-s和DWTAL-1,均在配备24GB显存的RTX 3090显卡上进行实验,整个实验基于Python 3.8.19、PyTorch 1.13.0和CUDA 12.4版本。
在消融实验中,我们未使用预训练权重。输入图像被调整为大小,批量大小为2。训练过程使用随机梯度下降(SGD)优化器,动量因子设为0.9,初始学习率为0.001,权重衰减为0.0005,共进行200个epoch。
为便于对比实验,所有非YOLO系列模型均使用MMDetection3框架[44]在24GB显存的RTX 3090 GPU上实现。ResNet-101主干网络使用微软亚洲研究院(MSRA)[45]在ImageNet数据集[46]上预训练的权重进行初始化。对于DWTAL-s数据集,输入图像同样设置为,批量大小为2。由于训练资源有限,DWTAL-1实验也采用输入,但批量大小减少为1。两个数据集均使用SGD优化器进行100个epoch的微调,动量设为0.9,初始学习率为0.001,权重衰减为0.0001。
为全面评估实例分割模型的性能,我们采用平均精度均值(mAP)、模型参数数量和GFLOPs作为量化指标。mAP通过计算多个置信度阈值下的平均精度来衡量模型的分割和分类能力。具体而言,给定置信度阈值,使用公式19计算精度和召回率:
其中,表示在置信度阈值下的假阳性数量,表示在同一阈值下的假阴性数量。平均精度(AP)定义为精确率-召回率(PR)曲线下的面积。在置信度阈值下,每个类别的平均精度通过公式20计算:
其中,表示当召回率时的最大精度。
最后,通过公式21计算所有类别在置信度阈值下的平均精度均值。不同的置信度阈值会导致不同的评估指标:使用0.5的置信度阈值,反映宽松定位要求下的基准性能;而则通过在0.5至0.95的置信度阈值范围内以0.05为步长平均结果,严格评估模型对物体边界的鲁棒性。
参数数量反映了模型的复杂度和存储需求。过多的参数可能导致过拟合和部署挑战,而参数不足则可能限制特征表示能力。GFLOPs量化了每次推理的计算需求(以十亿次浮点运算为单位),衡量了计算效率。高GFLOPs的模型依赖高性能GPU,难以满足实时性要求;而低GFLOPs的设计则适合实时视频处理,但需要架构优化以平衡精度权衡。本研究中所有GFLOPs值均在输入尺寸为的情况下报告。
为验证模型的有效性,我们在DWTAL-s数据集上将所提模型与主流分割模型进行了比较,包括两阶段模型(Mask R-CNN [6]、Cascade Mask R-CNN [47])、单阶段模型(SOLOv2 [43]、YOLACT [48])、基于Transformer的架构(Mask2Former [49])以及经典YOLO模型(YOLOv51-seg [20]、YOLOv81-seg [50]、YOLOv111-seg [51])。
如表2所示,在DWTAL-s数据集上的实验结果表明,所提OG-HFYOLO模型在指标上达到了74.23%,优于主流两阶段实例分割模型(如Mask R-CNN的62.5%和Cascade Mask R-CNN的62.1%)。它分别比经典YOLOv8(57.5%)和更先进的YOLOv11(57.8%)高出16.73%和16.43%,比最高精度的YOLOv5变体(71.96%)高出2.27%。此外,所提模型在基于Transformer的Mask2Former(63.3%)上提高了10.93%。在模型参数数量方面,引入具有相对较大卷积核的异构核交叉融合架构会略微增加参数大小,但在当前硬件存储约束下仍可管理。在推理速度方面,YOLACT在追求极致速度和模型尺寸的过程中严重损失了模型精度,而OG-HFYOLO模型在精度和速度之间取得了平衡,保留了单阶段模型应有的速度。它在速度上超过了主流两阶段模型和一些单阶段模型(如SOLOv2和Mask2Former)。
如表3所示,与其他主流模型相比,所提模型在DWTAL-1数据集上也达到了最先进的分割精度指标,证明了其在不同数据集上的泛化能力。
图8展示了不同模型分割结果的比较可视化。观察结果表明,即使在看似简单的案例(如(a))中,大多数主流模型也存在严重的漏检现象,而所提模型在该示例上的性能与先进的Mask2Former相当,并在所有后续测试图像上超越了它。在基于锚点的模型中,YOLOv5在漏检率上仅次于所提方法,排名第二。然而,在(d)等场景中,基于边界框的非极大值抑制(NMS)不仅抑制了有效细胞,还引入了错误的重叠检测,如(b)和(e)所示。对于轮廓模糊((f))和背景细胞多色((e))的图像,所提模型利用其GOE模块实现了最佳检测结果。在尺度变化的细胞检测任务中,如(b)底部的长细胞,SOLOv2未能准确捕捉细胞尺寸,而所提模型则保持了稳健的性能。
为进一步证明所提模型在表格细胞分割中的泛化能力,图9展示了仅使用DWTAL-1数据训练的模型在真实摄影场景和Camcap数据集[17]图像上的分割结果。左列显示自然场景照片:左上图像来自WTW数据集中的真实表格,左下表示实际捕获的场景。右四个子图对应Camcap样本。从结果来看,OG-HFYOLO模型仍能取得良好的分割结果,足以证明该模型具有较强的泛化能力。
随着深度学习的发展,面向检测的模型逐渐从基于锚点的机制过渡到无锚点机制[52],以追求更高的速度和更小的参数占用。从YOLOv5开始,模型开始减少对预定义锚点的依赖,到YOLOv8时,无锚点机制已成为标准。对比实验清楚地表明,在相同YOLO系列中,采用无锚点机制的YOLOv81-seg和YOLOv111-seg的精度显著低于其YOLOv51-seg对应模型。为验证锚点机制在当前任务中的优越性,我们进行了锚点机制的消融实验。如表4所示,在两个派生数据集上,YOLOv5和OG-HFYOLO模型在使用锚点机制时,所有指标均提高了超过10%,突出了锚点机制在本研究背景下的有效性。
表5展示了所提方法在DWTAL-s数据集上的消融实验结果。梯度方向感知提取器(GOE)旨在捕捉更丰富的纹理信息,并缓解由密集物体分布引起的检测挑战。异构核交叉融合(HKCF)和尺度感知损失解决了严重的尺度和宽高比变化问题,而MASK-NMS算法优化了后处理过程,以处理复杂形状和拥挤实例。派生数据集中固有的挑战是相互依赖的,这意味着解决孤立问题只能带来有限的性能提升。例如,虽然GOE通过纹理提取部分解决了检测困难,但它未能解决尺度变化问题,导致改进有限(例如,单独引入GOE时,掩码mAP@50:95仅提高了0.44%)。同样,单独集成HKCF和尺度感知损失分别将掩码mAP@50:95提高了0.09%和0.48%。然而,如表5所示,互补模块的协同集成带来了显著的性能提升。例如,将GOE与尺度感知损失相结合,掩码mAP@50:95提高了1.29%。这些结果证实,虽然每个所提模块单独有效,但它们的协同集成对于实现最佳性能至关重要。
为明确所提模型为何未采用YOLOv11中更先进的主干网络架构(该架构引入了用于特征提取的灵活C3k2模块[51],并在最后阶段集成了C2PSA注意力机制[51]以巩固主干特征),我们在相同的实验设置(包括相同的锚点机制、训练策略和所提模块)下对不同主干网络配置进行了消融实验。如表6所示,基线C3架构在两个数据集上均实现了最佳性能,优于包含YOLOv11增强组件的变体。实验结果表明,直接使用C3模块即可获得最优结果。
为解决变形表格结构中的空间坐标定位问题,我们提出了一种新颖的实例分割框架。该方法建立了一种新的像素级解析范式,显著优于传统的基于检测的定位方法。与传统检测方法相比,我们建立了一种基于像素级解析的新定位范式。为推动这一研究方向,我们构建了专门针对变形表格细胞定位任务的DWTAL数据集。其精细的空间坐标标注填补了该研究领域的关键基准数据空白。为应对DWTAL数据集中密集物体分布和极端尺度变化带来的挑战,我们进一步提出了OG-HFYOLO模型,用于变形表格细胞的精确实例分割。该模型融入了几项关键创新:梯度方向感知提取器(GOE)增强了密集排列物体的轮廓感知;异构核交叉融合(HKCF)和尺度感知损失解决了严重尺度变化带来的挑战;基于掩码的非极大值抑制(MASK-NMS)防止了由重叠边界框引起的错误抑制。
本研究利用实例分割获取变形表格中细胞的精确空间坐标,这是表格结构识别中的一项中上游任务。涉及逻辑坐标处理的下游任务可以采用LGPMA的操作框架,通过系统整合计算机图形学原理和几何拓扑理论来优化工作流程。此外,派生数据集中遇到的挑战(如密集物体排列和尺度多样性)在医学细胞分割和遥感图像分析等领域也普遍存在。因此,所提方法为解决这些领域中的类似挑战提供了建设性的见解。