您的位置 油气能源非常规气

CVPR 2021 | 针对人物交互检测的功能迁移学习

喜欢

来源：互联网
|
2021-04-26
|
0 条评论
|
我要分享
|
T小字　 T大字

作者 | 侯志

编辑 | 青暮

本文是悉尼大学博士二年级学生侯志依据三篇发表在CVPR2021和ECCV2020的论文写成的综述文章。

ATL(CVPR2021)：https://arxiv.org/abs/2104.02867

FCL(CVPR2021)：https://arxiv.org/abs/2103.08214

VCL(ECCV2020)：https://arxiv.org/abs/2007.12407

代码：https://github.com/zhihou7/HOI-CL

1 引言

背景介绍

当前人物交互关系的一个重要的挑战是HOI数据集是一个严重的长尾分布。同时，现实中很多HOI样本是很难采集到的，这就给HOI 检测带来了另外一个问题：零次学习（Zero-Shot Learning）。整体来讲，长尾问题，少样本和零样本问题是当前HOI检测的重要挑战。

视觉场景都是由一些基础的元素组合出来的，比说物体，部分和其他的一些语义区域。同时，人类主要是通过一种组合感知的形式去感知这个世界的。对于HOI，人可以通过不同的HOI类型去想象出新的HOI类别。比如如果我们看到了骑车和喂马这两个动作，我们很容易想象出骑马是什么样的。受此启发，我们设计了一个视觉组合学习（Visual Compositional Learning）的框架，简写为VCL。具体地，我们将人物交互分解为动作和物体，然后去组合不同图片间提取出来的动作和物体，组合出新的HOI样本来解决HOI里面的长尾问题和组合型零次学习问题。该工作已经发表在ECCV2020。

图1：视觉组合学习

在这之后，我们进一步发现在HOI检测当中，HOI的长尾问题实际上主要因为动作和物体本身就分别是一个严重的长尾分布。事实上，动作和物体的长尾分布导致了HOI的严重的长尾问题。当前生成样本是一个有效的同时解决长尾和零次样本问题的方法。鉴于此，我们提出Fabricated Compositional Learning (FCL) 方法。FCL首先为每个动作生成与之可组合的所有物体特征，将生成的物体特征来与动作特征进行组合得到新的HOI特征来同时解决长尾，少样本和零样本问题。通过为每个动作生成一个平衡的物体特征样本，FCL可以进一步改善VCL在零样本和少样本的性能。与此同时，我们提出了一个开放长尾人物交互检测问题。如下图2所示，开放长尾人物交互检测同时针对不平衡问题，少样本问题和零样本问题。FCL可以很好地解决开放长尾任务交互检测问题。该工作已经被CVPR2021收录。

图2：开放长尾人物交互检测

是的。当我们能够对一个物体做一个动作的时候，实际上也表示着这个物体具备了相应的动作功能。本文中物体功能表示我们能对物体进行的动作。我们通过组合功能（也就是动作）特征和从检测数据集里面提取的新的物体特征，使human-novel- object 交互检测也成为可能。不同于利用language embedding来进行human-novel-object 交互检测，我们的特征更加真实，能够使网络更好地学习novel object的特征。

与此同时，在我们的方法中，当我们将HOI的动作（功能）特征与物体特征来组合HOI的时候，我们实际上将动作特征也迁移到物体上面了，也就是说使HOI里面提取的功能特征可以与检测数据集里面的物体特征可以结合了。利用HOI的分类器，我们可以判别是否HOI图片里面提取的功能特征（动作特征）可以与物体图片里面的物体特征组合，也就是该物体是否具备某种动作功能（affordance）。

图3：方法简介图

2 方法概述

如图4所示，我们分别从HOI 图片和Object图片中根据union框，human 框和object框通过ROI pooling提取出动作（功能），人和物体的特征。人的特征跟手动设置的空间模式特征进行结合构成一个空间HOI样本输入到空间HOI分类器里面。功能特征首先跟HOI图片里面相对应的物体特征连接成一个HOI样本，同时我们将功能特征迁移到新的物体特征上面（组合功能特征和物体特征）得到新的组合的HOI样本。组合的HOI样本和HOI图片里面提取的HOI样本都输入到一个HOI分类器里面学习。对于不在特征空间里面的组合HOI样本，我们直接移除。

图4：整体结构图

去除HOI样本

为了方面地去除无效的组合样本，目前我们采用了一种简洁的方式。首先如公式一所示，我们利用verb-HOI 和object-HOI 共生矩阵分别得到HOI样本（y）的动作和物体类别

其中是多标签类别。设定新物体的标签是，我们可以得到组合的HOI样本的标签（如下：

对于不在标签空间的，会变成一个零向量。我们直接移除就可以了。

3 实验结果

HICO- DET：基于两步的HOI检测方法，我们在不同的检测框上面验证了我们方法的有效性。同时我们更进一步地在一步的HOI检测方法上也验证了ATL的有效性，并且也取得了一步HOI检测的SOTA效果。

Zero-shot：表三显示了我们在zero-shot上面的有效性。大大改善了新物体的人物交互检测结果。

4 总结与展望

我们相信人物交互不仅仅是对动作理解有帮助，对于物体的感知也是有促进作用的。动作是从人的角度上看人物交互问题，而功能（affordance）是从物体的角度上理解人物交互，接下来我们会继续从动作理解，物体感知，和组合学习的角度上探索人物交互的理解。

Reference

由于微信公众号试行乱序推送，您可能不再能准时收到的推送。为了第一时间收到的报道，请将“”设为星标账号在看”。