您的位置  油气能源  非常规气

TPAMI'21 | 中山大学&广东工业大学提出:跨域人脸表情识别新基准

  • 来源:互联网
  • |
  • 2021-12-08
  • |
  • 0 条评论
  • |
  • |
  • T小字 T大字

TPAMI&apos21 | 中山大学&广东工业大学提出:跨域人脸表情识别新基准

1 概述

针对上述两个问题,我们做了以下两方面的工作:

  • 其次,我们提出了一种新颖的对抗图表达学习 (Adversarial Graph Representation Adaptation, AGRA) 框架。该框架将图表示传播与对抗学习机制相结合,实现有效的跨域整体-局部特征协同适应。根据在测试基准上得到的比较结果,我们发现我们所提出的 AGRA 框架优于以前的最先进方法。

2 统一且公平的评测基准

2.1. 人脸表情识别任务存在的领域偏移问题

由于数据收集条件以及标注标准的不一致,各个人脸表情数据集之间存在较为明显的领域偏移,从而导致模型在跨域场景下的性能大幅下降。其中, 数据收集条件不一致具体表现为收集环境不一致(实验室受控环境 vs 自然非受控环境)和目标人群不一致; 标注标准不一致具体表现为不同数据集的标注人员对于表情的理解具有主观性,易受所处地区文化影响。如图 2 所示,我们可以直观地感受到不同人脸表情数据集之间所存在的明显差异。

图 2. 常见的人脸表情数据集

除了通过图像数据进行直观的感受外,我们还可以通过模型在各个数据集上的性能差异来衡量各个人脸表情数据集之间所存在的领域偏差。如图 3 所示,我们以 ResNet-50 作为骨干网络,分别在各个数据集上进行训练,再直接放该模型放在其他数据集上进行测试,由此得到全面且公平的基准结果。

图 3. 以 ResNet-50 作为骨干网络的基准结果

2.2. 设置不一致的影响

(1) 源/目标域数据集选择不一致的影响:当源/目标域数据集选择不一致时,不同算法将无法公平的进行比较。为更好地理解这一点,我们在论文中分别以 RAF 和 AFE 作为源域数据集进行实验分析,即我们统计了在使用不同骨干网络的情况下 所有方法的评价测试结果:如图 4 所示,仅仅选取 RAF 和 AFE 进行源域对比实验就存在 9.29% 的性能差异,证明 源/目标域数据选取不一致极大地阻碍了不同算法之间的公平对比。其中,图 4 中所使用骨干网络从左往右分别为 ResNet-50,ResNet-18 和 MobileNet-v2。

图 4. 选用 RAF 和 AFE 作为源域数据的平均准确率

(2) 骨干网络选择不一致的影响:当骨干选择不一致时,不同算法将无法公平的进行比较。为更好地理解这一点,我们在论文中分别以 ResNet-50,ResNet-18 和 MobileNet-v2 作为骨干网络进行实验分析。具体而言,我们分别统计了以 RAF 和 AFE 作为源域数据集时 所有方法的平均测试结果:如图 5 所示,利用不同骨干网络进行特征提取会存在多达 12% 的性能差异,说明 骨干网络选取不一致极大地阻碍了不同算法之间的公平对比。其中,图 5 所使用源域数据从左往右分别为 RAF 和 AFE。

图 5. 选用 ResNet-50/ResNet-18/MobileNet-v2 作为骨干网络的平均准确率

2.3. 统一且公平的评测基准

  • 数据选取一致:该评测基准统一了所有方法的源/目标域数据集选取设置,以此确保对各个方法进行统一且公平的对比。
  • 骨干网络选取一致:该评测基准统一了所有方法的骨干网络选取设置,以此确保对各个方法进行统一且公平的对比。
  • 骨干网络多样:该基准选择较为通用且参数量较多的 ResNet-50 和 ResNet-18,以及轻量化网络Mobilenet-v2 作为骨干网络进行测试。
  • 数据集涵盖范围广:该评测基准囊括了多样化的数据集作为源/目标域:1)选择较多的数据集,包括 CK+ [1],JAFFE [2],SFEW2.0 [3],FER2013 [4],ExpW [5],RAF [6],AFE;2)数据集收集环境多样,包括实验室受控环境收集 [1, 2] 和自然非受控环境收集 [3,4,5,6] 和AFE;3)数据集人种文化多样,包括来自欧美文化 [1,3,4,5] 的以及来自亚洲文化的 [2] 和 AFE。

图 6. 以 RAF 为源域数据集的实验结果(其他实验结果见原文)

图 7. 以 AFE 为源域数据集的实验结果(其他实验结果见原文)

3. 对抗图表达学习

图 8. AGRA 框架图

4. 亚洲人脸表情数据集相关成果:

T. Chen, T. Pu, H. Wu, Y. Xie, L. Liu, L. Lin, &quotCross-Domain Facial Expression Recognition: A Unified Evaluation Benchmark and Adversarial Graph Learning", in TPAMI 2021. [PDF]

Y. Xie, T. Chen, T. Pu, H. Wu, L. Lin, &quotAdversarial Graph Representation Adaptation for Cross-Domain Facial Expression Recognition", in ACM MM 2020. [PDF]

Project Page:github.com/HCPLab-SYSU/

Reference:

[1] P. Lucey, J. F. Cohn, T. Kanade, J. Saragih, Z. Ambadar, and I. Matthews, &quotThe extended cohn-kanade dataset (ck+): A complete dataset for action unit and emotion-specified expression", in CVPR Workshops 2010.

[2] M. Lyons, S. Akamatsu, M. Kamachi, and J. Gyoba, &quotCoding facial expressions with gabor wavelets", in FG 1998.

[3] A. Dhall, R. Goecke, S. Lucey, and T. Gedeon, &quotStatic facial expression analysis in tough conditions: Data, evaluation protocol and benchmark", in ICCV Workshop 2011.

[4] I. J. Goodfellow, D. Erhan, P. L. Carrier, A. Courville, M. Mirza, B. Hamner, W. Cukierski, Y. Tang, D. Thaler, D.-H. Lee et al., &quotChallenges in representation learning: A report on three machine learning contests,” Neural Networks 2015.

[5] Z. Zhang, P. Luo, C. C. Loy, and X. Tang, “From facial expression recognition to interpersonal relation prediction", in IJCV 2018.

[6] S. Li and W. Deng, “Reliable crowdsourcing and deep localitypreserving learning for unconstrained facial expression recognition", in TIP 2018.

[7] Y. Ji, Y. Hu, Y. Yang, F. Shen, and H. T. Shen, &quotCross-domain facial expression recognition via an intra-category common feature and inter-category distinction feature fusion network", in Neurocomputing 2019.

[8] R. Zhu, G. Sang, and Q. Zhao, &quotDiscriminative feature adaptation for cross-domain facial expression recognition", in ICB 2016.

[9] S. Li, W. Deng, and J. Du, &quotReliable crowdsourcing and deep locality-preserving learning for expression recognition in the wild", CVPR 2017.

[10] S. Li and W. Deng, &quotDeep emotion transfer network for cross-database facial expression recognition", in ICPR 2018.

[11] M. V. Zavarez, R. F. Berriel, and T. Oliveira-Santos, &quotCross-database facial expression recognition based on fine-tuned deep convolutional network", in SIBGRAPI 2017.

[12] S. Li and W. Deng, &quotA deeper look at facial expression dataset bias", in TAC 2020.

[13] M. Long, Z. Cao, J. Wang, and M. I. Jordan, &quotConditional adversarial domain adaptation", in NIPS 2018.

[14] C.-Y. Lee, T. Batra, M. H. Baig, and D. Ulbricht, &quotSliced wasserstein discrepancy for unsupervised domain adaptation", in CVPR 2019.

[15] K. Fatras, T. Sejourne, R. Flamary, and N. Courty, &quotUnbalanced minibatch optimal transport applications to domain adaptation", in PMLR 2021.

[16] M. Li, Y.-M. Zhai, Y.-W. Luo, P.-F. Ge, and C.-X. Ren, &quotEnhanced transport distance for unsupervised domain adaptation", in CVPR 2020.

由于微信公众号试行乱序推送,您可能不再能准时收到的推送。为了第一时间收到的报道, 请将“”设为 星标账号在看”。

点击,查看原文

动静界 http://www.cityruyi.com/lm-4/lm-1/22137.html
免责声明:本站所有信息均搜集自互联网,并不代表本站观点,本站不对其真实合法性负责。如有信息侵犯了您的权益,请告知,本站将立刻处理。联系QQ:1640731186