0717-7821348
爱彩人app苹果

爱彩人app苹果

您现在的位置: 首页 > 爱彩人app苹果
关于大片人物特效少不了的人体姿势估量,这里有一份总述文章
2019-08-23 00:19:04
大片中的人物特效怎么完结,少不了运用人体姿态估量。这篇博客简介了运用深度学习技能的多人姿态估量办法,及其运用。

人体姿态骨架图 (skeleton) 用图形格局表明人的动作。本质上,它是一组坐标,衔接起来能够描绘人的姿态。骨架中的每个坐标都被称为这个图的部件(或关节、要害点)。咱们称两个部件之间的有用衔接为对(pair,或肢)。可关于大片人物特效少不了的人体姿势估量,这里有一份总述文章是要注意的是,并非一切部件组合 都能发生有用的对。下图是一个人体姿态骨架图的示例。

左:人体姿态骨架图的 COCO 要害点格局 ;右:烘托后的人体姿态图(图源:https://github.com/CMU-Perceptual-Computing-Lab/openpose)

人体姿态信息的获取为多个实际运用拓荒了路途,本博客的终究也会评论其间一些运用。近年来,研讨人员提出了多种人体姿态估量办法,其间最早(也是最慢)的办法一般是在只要一个人的图画中估量一个人的姿态。这些办法一般先辨认出各个部件,然后经过在它们之间构成衔接来创立姿态。

当然,假如是在包括多人的实际场景,这些办法就不是很有用了。

多人姿态估量

因为不知道图画中每个人的方位和总人数,因而多人姿态估量比单人姿态估量更困难。一般,咱们能够经过以下办法来处理上述问题:

简略的办法是:首要参加一个人体检测器,然后别离估量各个部件,关于大片人物特效少不了的人体姿势估量,这里有一份总述文章终究再核算每个人的姿态。这种办法被称为「自顶向下」的办法。

另一种办法是:检测图画中的一切部件(即一切人的部件),然后将归于不同人的部件进行相关/分组。这种办法被称为「自底向上」办法。


上部: 传统的自顶向下的办法;下部: 传统的自底向上的办法。

一般,自顶向下的办法比自底向上的办法更简单完结,因为增加人体检测器要比运用相关/分组算法简单得多。全体上很难判别哪种办法功能更好,因为归根到底是比照人体检测器和相关/分组算法哪个更好。

在这篇博客中,咱们首要重视运用深度学习技能的多人姿态估量技能。鄙人一节中,咱们将回忆一些盛行的自顶向下和自底向上办法。

深度学习办法

1. OpenPose

OpenPose 是最盛行的自底向上多人姿态估量办法之一,部分原因在于其 GitHub 完结的文档注释很友爱。

与许多自底向上的办法相同,OpenPose 首要检测图画中的部件(要害点),然后将部件分配给不同的个别。下图展现的是 OpenPose 模型的架构。



OpenPose 架构的流程图(图源:https://arxiv.org/pdf/1611.08050.pdf)

OpenPose 网络首要运用前几层(上图中是 VGG-19)从图画中提取特征。然后将这些特征输入到卷积层的两个并行分支中。第一个分支猜测了一组相信图(18 个),每个相信图表明人体姿态骨架图的特定部件。第二个分支猜测别的一组 Part Affinity Field (PAF,38 个),PAF 表明部件之间的相关程度。


运用 OpenPose 进行人体姿态估量的过程(图源:https://arxiv.org/pdf/1812.08008.pdf)

OpenPose 其他过程的作用是细关于大片人物特效少不了的人体姿势估量,这里有一份总述文章化每个分支做出的猜测。运用部件相信图,在部件对之间构成二分图(如上图所示)。然后运用 PAF 值,对二分图中较弱的链接进行剪枝。经过以上过程,咱们能够估量出人体姿态骨架图,并将其分配给图画中的每一个人。

2. DeepCut

DeepCut 是一种自底向上的办法,可用于多人姿态估量。其作者经过界说以下问题来完结这项使命:

  • 生成一组身体部件候选项调集 D。这个调集表明图画中一切人身体部位的一切或许方位。从身体部件候选会集挑选身体部件的子集。
  • 运用身体部件类 C 中的类别标示选中的每个身体部件。身体部件类表明部件的类型,如「手臂」、「腿」、「躯干」等。
  • 分配归于同一个人的身体部位。

DeepCut 办法图示(图源:https://arxiv.org/pdf/1511.06645.pdf)

上述问题能够经过建模为整数线性规划问题(Integer Linear Programming,ILP)来处理。运用二元随机变量(binary random variable)的三元组 (x, y, z) 进行建模,二元随机变量的域如下图所示:


二元随机变量的域(图源:https://arxiv.org/pdf/1511.06645.pdf)

考虑来自身体部件候选项调集 D 的两个身体部件候选项 d 和 d',以及来自类别集 C 的类别 c 和 c',其间身体部件候选项是经过 Faster RCNN 或 Dense CNN 取得的。现在,咱们能够开发以下句子集。

  • 假如 x(d,c) = 1,则表明身体部件候选项 d 归于类别 c。
  • 假如 y(d,d') = 1,则表明身体部件候选项 d 和 d'归于同一个人。
  • 他们还界说了 z(d,d』,c,c』) = x(d,c) * x(d』,c』) * y(d,d』)。假如上述值为 1,则表明身体部件候选项 d 归于类别 c,身体部件候选项 d' 归于类别 c',终究身体部件候选项 d,d ' 归于同一个人。

终究一个句子能够用来区分归于不同人的姿态。上述句子明显能够用线性方程表明为 (x,y,z) 的函数。经过这种办法,咱们就能够树立整数线性规划 (ILP) 模型,并估量出多人的姿态。完好方程和详细分析拜见论文《DeepCut: Joint Subset Partition and Labeling for Multi Person Pose Estimation》。

3. RMPE (AlphaPose)

RMPE 是一种盛行的自顶向下的姿态估量办法。其作者以为,自顶向下的办法一般依赖于人体检测器的体现,因为姿态估量是对有人在的区域上履行的。因而,定位差错和重复的鸿沟框猜测或许会导致姿态提取算法只能得到次优解。

重复猜测的影响(左)和低相信度鸿沟框的影响(右)(图源:https://arxiv.org/pdf/1612.00137.pdf)

为处理这一问题,作者提出运用对称空间改换网络 (Symmetric Spatial Transformer Network, SSTN) 从不精确的鸿沟框中提取高质量的单人区域。在该区域中,运用单人姿态估量器 (SPPE) 来估量这个人的人体姿态骨架图。然后咱们再运用空间去改换器网络 (Spatial De-Transformer Network, SDTN) 将估量的人体姿态从头映射回原始图画坐标系。终究,运用参数化姿态非极大值按捺 (parametric pose NMS) 技能处理冗余问题。

此外,作者还介绍了姿态引导的 proposal 生成器(Pose Gui关于大片人物特效少不了的人体姿势估量,这里有一份总述文章ded Proposals Generator)来增强练习样本,以更好地协助练习 SPPE 和 SSTN 网络。RMPE 的明显特点是,这一技能能够扩展为人体检测算法和 SPPE 的恣意组合。

4. Mask RCNN

Mask RCNN 是用于履行语义和实例切割的盛行架构。该模型能够并行地猜测图画中各种方针的鸿沟框方位和对方针进行语义切割的掩码(mask)。而这种根本架构能够轻松地扩展成用于人体姿态估量的办法。

Mask RCNN 架构流程图(图源:https://medium.com/@jonathan_hui/image-segmentation-with-mask-r-cnn-ebe6d793272)

该根本架构首要运用 CNN 从图画中提取特征图。区域候选网络(Region Proposal Network,RPN)运用这些特征图来获取方针的候选鸿沟框。这些候选鸿沟框便是从 CNN 提取的特征图中挑选区域(region)而得到的。因为候选鸿沟框能够具有各种尺度,因而咱们运用一个叫作 RoIAlign 的层来减小所提取特征的尺度,使得它们的巨细共同。现在,将提取到的特征传递到 CNN 的并行分支,以终究猜测鸿沟框和切割掩码。

现在咱们看一下履行切割的分支。首要假定图画中的一个方针归于类别调集 K。切割分支能够输出 K 个巨细为 m x m 的二进制掩码(mask),其间每个二进制掩码表明仅归于该类的一切方针。咱们能够将每种类型的要害点高保远东建模为不同的类,并将其作为切割问题来处理,然后提取出归于图画中每个人的要害点。

一起,咱们还能够练习方针检测算法来识他人的方位。经过结合人的方位信息和他们的要害点,咱们能够得到图画中每个人的人体姿态骨架图。

这种办法类似于自顶向下的办法,可是人体检测阶段是与部件检测阶段并行履行的。也便是说,要害点检测阶段和人体检测阶段是彼此独立的。

其他办法

多人人体姿态估量有许多处理办法。简练起见,本文仅解说了几种办法。有关更翔实的办法列表,咱们能够检查以下材料:

运用

姿态估量在许多范畴都有运用,下面罗列其间的一些运用。

1. 活动辨认

追寻人体在一段时间内姿态的改变也能够用于活动、手势和步态辨认。这样的用例有:

  • 检测一个人是否跌倒或患病的运用。
  • 能够自主地教授正确的练习机制、体育技能和舞蹈活动的运用。
  • 能够了解全身手语的运用(例如:机场跑道信号、交通警察信号等)。
  • 能够增强安全性和用来监控的运用。


追寻人的步态关于安全和监控范畴是很有用的(图源:http://www.ee.oulu.fi/~gyzhao/research/gait_recognition.htm)


2. 动作捕捉和增强实际

CGI 运用是一类风趣的运用,它也运用了人体姿态估量。假如能够估量人的姿态,就能够将图、风格、设备和艺术品叠加在人身上。经过追寻这种人体姿态的改变,烘托出的图形能够在人移动时「很自然地习惯」人。

CGI 烘托示例(图源:https://i.kym-cdn.com/photos/images/facebook/001/012/571/0a4.jpg)


Animoji 是一个很好的比如。虽然上面的研讨只追寻了人脸的结构,但这个思路能够扩展用于人体要害点追寻。相同的概念也能够用来烘托一些仿照人类动作的增强实际 (AR) 元素。

3. 练习机器人

咱们能够不经过手动对机器人进行编程来追寻轨道,而是沿着履行某个动作的人体姿态骨架的轨道运转。人类教练能够经过演示动作,有用地教机器人这些动作。然后,机器人能够经过核算得知怎么移动关节才干履行相同的动作。

4. 控制台动作追寻

姿态估量的另一个风趣的运用是在交互式游戏中追寻人体的运动。一般,Kinect 运用 3D 姿态估量(运用红外传感器数据)来追寻人类玩家的运动,并运用它来烘托虚拟人物的动作。


运转中的 Kinect 传感器(图源:https://appleinsider.com/articles/14/07/11/apples-secret-plans-for-p关于大片人物特效少不了的人体姿势估量,这里有一份总述文章rimesense-3d-tech-hinted-at-by-new-itseez3d-ipad-app)

定论

当时咱们在人体姿态估量范畴现已取得了长足进步,这使得咱们能够更好地服务很多或许运用这项技能的运用。此外,对姿态追寻等相关范畴的研讨能够大大提高其在多个范畴的出产运用率。


原文链接:https://medium.com/beyondminds/an-overview-of-human-pose-estimation-with-deep-learning-d49eb656739b