前往小程序,Get更优阅读体验!
立即前往
首页
学习
活动
专区
圈层
工具
发布
首页
学习
活动
专区
圈层
工具
MCP广场
社区首页 >专栏 >惊艳!定制 MiniResEmoteNet 用于可用性测试,学生模型A准确率76.33%,超越先进方案 !

惊艳!定制 MiniResEmoteNet 用于可用性测试,学生模型A准确率76.33%,超越先进方案 !

作者头像
未来先知
发布于 2025-03-17 09:16:46
发布于 2025-03-17 09:16:46
1100
举报
文章被收录于专栏:未来先知未来先知

面部表情识别在用户体验领域变得越来越关键,尤其是在现代可用性测试中,因为它有助于更深入地理解用户满意度和参与度。 本研究旨在通过采用知识蒸馏框架来扩展ResEmoteNet模型,开发出轻量级的MiniResEmoteNet模型,这些模型针对可用性测试进行了定制。 实验在FER2013和RAF-DB数据集上进行,以评估三种学生模型架构(学生模型A、学生模型B和学生模型C)的有效性。这些模型的发展涉及将教师模型每一层的特征通道数量分别减少约50%、75%和87.5%。除了在FER2013数据集上表现出色外,学生模型A(E1)实现了76.33%的测试准确率,比EmoNeXt提高了0.21%的绝对值。 此外,与ResEmoteNet模型相比,在推理速度和内存使用方面也表现出绝对优势,研究结果表明,所提出的方法超越了其他最先进的解决方案。

一、引言

面部表情识别(FER)已成为计算机视觉领域的关键研究领域,在人与计算机交互、情感分析和可用性测试等方面具有重要应用。嘴唇、牙齿、皮肤、头发、颧骨、鼻子、脸型、眉毛、眼睛、下颌线和嘴巴等面部组件的细微变化使得FER任务变得复杂。

面部表情识别(FER)系统通过三个主要阶段运作:人脸获取、特征提取和情感分类。这些阶段使得系统能够检测并解释跨越七个预定义情感类别的人类面部表情。

在人脸获取阶段,采用Faster R-CNN和YOLO等方法进行高效的人脸检测,通过在图像中定位面部区域实现高精度。在特征提取阶段,基于CNN的模型如ResNet从面部数据中捕捉层次结构模式,而SE网络则重新校准通道重要性,专注于情感相关的信息。视觉Transformer能够捕捉面部特征之间的长距离依赖关系。在情感分类阶段,提取的特征被分配到七个情感类别之一。

这个过程通常由专门的深度学习模型执行,多模态方法整合视觉和上下文数据以提高准确性。

二、相关研究

面部表情识别(FER)因深度学习的进步而取得了显著进展,但高计算成本仍然是实时部署的挑战。计算成本涉及资源如内存使用、推理时间和参数数量。像视觉 Transformer (Vision Transformers)和SE增强的ResNets(SE-enhanced ResNets)这样的大型模型需要大量的资源,这在受限环境中限制了其可扩展性。表1展示了不同FER模型在大小和计算复杂性方面的比较。

ResEmoteNet [11]位于这两种极端之间,在高性能与计算效率之间取得了平衡。其大小为320.95 MB,参数量达80.2百万,比FMAE和Segmentation VGG-19等模型更为资源高效,但不如Ensemble ResMaskingNet轻量。ResEmoteNet通过集成先进的特性,如 squeeze-and-excitation (SE) 模块和残差连接,实现了这一平衡,这些特性提升了其分类性能,但同时也增加了计算需求,如图1所示。

随着对实时面部表情识别(FER)系统需求的不断增长,推动了轻量级架构的发展,这些架构在降低计算复杂性的同时保持了准确性。MobileNet[11]通过实施深度可分离卷积,显著减少了参数数量和浮点运算。EfficientNet[13]通过采用复合缩放策略,有系统地修改网络尺寸,在准确性和效率之间取得平衡,从而推进了轻量级架构。尽管取得了重大进展,轻量级架构在处理不平衡数据集和微妙情绪表达方面通常面临挑战。这些挑战凸显了混合方法的重要性,这些方法将轻量级设计原则与知识蒸馏等优化技术相结合。

知识蒸馏,由[14]提出,通过将知识从大型、高性能的教师模型转移到较小的学生模型来降低深度学习模型的计算需求。这一过程使学生模型能够在资源显著减少的情况下模仿教师的行为,这使得它在实时面部表情识别(FER)应用中尤其有价值。损失函数,如蒸馏损失和交叉熵损失,在模仿教师和与真实标签对齐之间取得平衡。

T和Alpha超参数对蒸馏过程进行微调,确保学生模型的准确性和效率。知识蒸馏已优化了资源密集型模型,如视觉 Transformer 和SE增强的CNN,以实现实时应用[15]。它允许较小模型继承其较大对应模型的优点,同时提高对各种现实世界条件(如不同的光照和遮挡)的泛化能力。

为了缩小这些差距并提高ResEmoteNet在可用性测试应用中的实用性,本文将ResEmoteNet用作教师模型,并应用知识蒸馏技术,以创建轻量级适配版本,从而提升学生模型的计算性能。选择ResEmoteNet的原因是它在四个面部表情识别(FER)数据库中均优于现有模型[11]。

第三章:研究方法

学生模型架构:

在构建学生模型的过程中,作者选择通过调整比例来减少教师模型的参数,以检验在不影响模型准确性的情况下减少参数的可行性。这一研究导致了三种不同的学生模型架构的发展:学生模型A通过将教师模型每一层的特征通道(滤波器)数量减少约50%;学生模型B将特征通道减少约75%;学生模型C进一步将特征通道减少约87.5%,具体内容如表二所示。

表2 教师学生模型架构比较

作者的知识蒸馏方法:

采用ResEmoteNet作为知识蒸馏框架中的教师模型,该方法侧重于从教师模型中提取硬标签和软预测,最终形成一系列蒸馏损失函数的复合体。随后,输入数据被传递到学生模型进行处理。图2展示了所提出的方法。

在软目标蒸馏的机制中,通过温度超参数T实现温度缩放,以平滑概率分布,从而增强知识蒸馏的效果。这种平滑是通过在应用softmax函数之前将logits除以T来实现的。教师模型的软logits传达了关于类别关系的综合信息,从而在一定程度上简化了学习过程。使用KL散度损失有助于教师和学生软预测之间的知识转移,似乎可以加速训练过程。

在本文中,

代表教师模型的“软化”概率分布,而 代表学生模型的“软化”概率分布。在硬标签学习(Hard Label Learning)的背景下,交叉熵损失(Cross-entropy loss)被用来确保学生模型在保持对主要任务的准确性的同时,通过 GT 标签进行直接监督;这种损失可以计算于学生模型的预测结果与 GT 标签之间。

C. 数据集:

本小节概述了本研究中使用的数据集。作者的实验调查使用了两个数据集:FER2013 [16] 和 RAF-DB [17]。作者的面部情感识别任务旨在识别七种基本情感:愤怒、厌恶、恐惧、快乐、中性、悲伤和惊讶。表三提供了每个数据集的类别划分的训练-测试分布,以方便进行全面的分析。表三展示了FER2013和RAF-DB在类别数据分布上的情况。

FER2013数据集非常适合用于基准测试和开发受控条件下的模型。其较低的分辨率和噪声使其成为测试噪声鲁棒性的良好数据集。该数据集是为在表示学习ICML研讨会上的面部表情识别挑战而创建的,包含尺寸为的灰度图像。它分为训练集、公开测试集和私有测试集,并对七个基本情绪进行了标注。

真实世界情感面部数据库(RAF-DB)因其丰富的多样性、提高的分辨率以及复合情感的融入,对于训练适用于现实世界场景的模型具有优势。该数据库包含了40名独立标注员标注的基本或复合表情的RGB面部图像,如图3所示。

D.1 实验细节

在作者的研究中,在利用FER2013和RAF-DB数据集时采用了相同的实验框架。学生模型的训练方案中精心整合了通过严格敏感性分析确定的超参数。实验安排包括由16个样本组成的训练批次,训练方案持续了80个epoch,以与原始教师模型的训练配置保持一致。为了优化目的,实施了一个自定义损失函数,同时随机梯度下降(SGD)作为主要的优化算法。为了解决表2中所有数据集观察到的类别不平衡问题,采用了一种类别权重偏差方法,在损失函数计算中赋予了代表性不足的类别更高的权重。数据预处理流程包括整合随机水平翻转增强技术,以增强模型泛化能力。训练过程从初始学习率开始,并配备自适应调度器,当学习停滞时,将学习率降低10倍。

通过评估温度值1、2、3、4和5,确定温度3始终带来更优的性能。这可能是由于温度3在捕捉复杂的类别关系和保持稳健的训练信号之间提供了理想的平衡。此外,在时获得更柔和的目标概率可能使得学生模型能够通过吸收更广泛的类别表示来更有效地泛化,从而避免过度拟合教师的信心预测。另外,对0.10、0.15和0.20的alpha值进行实验表明,0.15和0.20的alpha值是最佳的,因为模型的性能在这些点上达到饱和,表明在学习教师的软标签和真实标签之间达到理想的平衡。这种平衡使得学生模型能够巧妙地捕捉到类别间的细微关系,同时保持对硬标签分类任务的遵循。

作者的实验评估是在Kaggle提供的NVIDIA Tesla P100 GPU基础设施上,使用PyTorch框架进行的。在评估作者的人脸情感识别系统的性能时,作者采用了准确率(%)作为主要指标,其定义为:

TP代表真阳性,TN代表真阴性,FP代表假阳性,FN代表假阴性。

IV. 结果与讨论

本节概述了作者在基准数据集FER2013和RAF-DB上进行的实验研究的结果。作者对所提出的方法——ResEmoteNet学生模型的效能进行了评估,并通过表3和表4系统性地展示了FER2013和RAF-DB的测试结果。

A. 在线远程学生模型性能的跨领域研究

本研究以FER2013数据集为起点,主要是因为该数据集在标签不准确、某些图像缺少面部以及数据分布不均衡等问题上具有挑战性特征。表四展示了FER2013的实验结果,初步实验使用了学生模型A,该模型配置了3的温度和0.20的alpha值。该模型似乎表现出最佳性能,测试准确率达到76.33%,相比教师模型降低了3.46%。

在第四次实验中,学生模型B表现最佳,其温度设置为3,但α值为0.15,测试准确率达到70.20%,相对于教师模型下降了9.59%。在第六次试验中,进一步探索了只包含1,259,911个参数的学生模型C的潜力,其准确率为58.58%,比教师模型下降了21.21%。

此外,作者还提供了ResEmoteNet学生模型的混淆矩阵,如表4所示,该表展示了在RAF-DB上的实验结果。RAF-DB因其呈现真实世界的挑战,包括姿态、光照和遮挡的变化,被认为适合评估学生模型A和B的广泛能力。在相同的超参数设置下,学生模型A(E1)的测试准确率为84.21%,比教师模型低10.55%。相比之下,学生模型B(E4)的测试准确率为81.41%,相对于教师模型降低了13.35%。

FER2013数据集展示了模型在相应测试集中的类别混淆情况,如图4所示。

表4. 在FER2013和RAF-DB上进行的实验结果

学生 ResEmoteNet模型与教师 ResEmoteNet模型性能比较:

表5展示了所提学生模型与既定的ResEmoteNet教师模型在性能上的比较分析。研究结果说明,在模型大小、推理过程中的内存使用以及推理速度方面,学生模型A和B都超越了ResEmoteNet模型。这些学生模型被设计成教师模型的轻量级替代品。具体来说,ResEmoteNet模型的大小达到了306.09 MB,而学生模型A的尺寸显著减小,仅为76.56 MB,实现了的提升。此外,学生模型B的尺寸更是表现出色,仅为19.16 MB,反映了的减少。因此,这些学生模型更适合实时应用。学生模型A(E1)特别适用于需要平衡轻便性和准确性的场景,而学生模型B(E4)则更适用于优先考虑降低内存使用的环境。

除了在FER2013数据集上表现出色外,学生模型A(E1)在推理过程中使用了5088.46MB的内存,实现了76.42%的测试准确率。相比之下,学生模型B(E4)在推理过程中内存使用量为1814.97MB,测试准确率为70.20%。这两个模型在推理过程中的内存使用量分别提高了49.63%和82.05%(与ResemoteNet模型相比,后者内存消耗为10102.94MB)。此外,在推理速度方面,学生模型A(E1)和B(E2)的平均推理时间分别为0.14毫秒和0.15毫秒,分别比ResemoteNet教师模型提高了90.00%和89.29%(ResemoteNet教师模型的推理时间为1.4毫秒)。

在处理RAF-DB数据库并评估学生在数据集上的模型性能时,学生模型A(El)在推理过程中的测试准确率达到,内存使用量为827.96 MB。相比之下,学生模型B(E4)在推理过程中记录的测试准确率为,内存使用量为748.72 MB。学生模型A(E1)和B(E4)在推理过程中的内存使用量上相较于ResEmoteNet模型有绝对提升,分别降低了和,而ResEmoteNet的内存使用量为838.19 MB。此外,关于推理速度,学生模型A(E1)和B(E2)的平均推理时间分别为0.29 ms和,相较于ResEmoteNet教师模型的推理时间,分别实现了和的绝对提升。

学生远程网络模型性能对比:与先前研究的比较

在表六中,所提出的方法的有效性被与各种最先进的技巧进行了比较,结果显示,与现有方法相比,作者的方法表现更优。FER2013数据集由于标签不准确、存在无面部特征图像以及数据分布不均等问题,提出了显著的挑战。

尽管存在这些挑战,学生模型仍然达到了的分类准确率,拥有2,006,938,383个参数,相较于拥有3,056,433,311个参数的EmoNeXt[9],实现了的绝对提升。在RAF-DB的背景下,ResEmoteNet学生模型A(E1)达到了的分类准确率,比CMT VGGFACE[18]提升了。此外,学生模型B(E4)达到了的准确率,相较于C MT PSR[18],实现了的绝对提升。

表6. 在两个数据集(FER2013和RAF-DB)上,RESEMOTENET学生模型5的测试准确率()与现有最先进方法的参数比较。

五、结论

这项研究强调了迁移学习对于提高神经网络识别面部情绪能力的重要性。作者通过使用知识蒸馏方法,证明了学生模型MiniResEmoteNet显著提升了神经网络的总体鲁棒性。作者的方法的有效性通过在RAFDB和FER2013基准测试中取得的显著进步得到证实。值得注意的是,学生模型A(E1)的测试准确率比EmoNeXt高出0.21%,达到了76.33%。

此外,学生模型A(E1)和B(E4)的平均推理时间分别为0.14毫秒和0.15毫秒,这相对于指导模型的1.4微秒的运行时间实现了绝对提升。

此外,结果表明,与使用10,102.94MB内存的ResEmoteNet模型相比,推理过程中的内存消耗分别增加了49.63%和82.05%。根据这些结果,所提出的技术优于其他尖端技术。

这些成果展示了作者的方法在精确识别面部情绪方面的效率,为面部情绪检测领域提供了显著的进步。未来研究将探讨Mini-ResEmoteNet模型的进一步改进以及将其整合到可使用性测试框架中的可行性。

参考

[1]. Mini-ResEmoteNet: Leveraging Knowledge Distillation for Human-Centered Design .

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2025-03-16,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 未来先知 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档