精华内容
下载资源
问答
  • 手部姿态估计】开源数据集-合集-RGBD-IR-Depth
    2022-04-18 17:22:56

    本文整理了研究期间所用到的开源数据集

    depth:

    MSRA15: 链接
    ICVL:链接
    BigHand2.2M:链接

    RGB

    InterHand2.6M:链接

    RGB-D

    RHD:链接
    STB:链接

    IR+depth

    ir-depth:链接

    更多相关内容
  • 手部姿态估计综述

    千次阅读 2021-01-13 17:10:17
    关于手部姿态估计的资料好少,那我就自己来整理一下吧 参考文献:《Hand Pose Estimation: A Survey》 Abstract 近年来,深度卷积神经网络(CNNs)在几乎所有计算机视觉任务中的成功,以及低成本消费者深度相机的普及...

    关于手部姿态估计的资料好少,那我就自己来整理一下吧
    参考文献:《Hand Pose Estimation: A Survey》

    Abstract

    近年来,深度卷积神经网络(CNNs)在几乎所有计算机视觉任务中的成功,以及低成本消费者深度相机的普及,使得手部姿态估计成为计算机视觉领域的一个热门话题。

    1.Introduction

    手部姿态估计如果按照时间线来分,我们可以以CNN为分界线来描述。在深度学习热潮出现之前,手部姿态估计主要使用传统机器学习和计算机视觉的方法,之后是使用深度学习来解决。早前那一波热潮是因为Kinect一代的发布,引起了Kinect应用的研究热潮,手势姿态估计就是其中的一个应用。如果大家去看那些年的论文可以发现:时间在10-14年之间的论文基本是采用机器学习方法,如随机森林,输入图像为depth。时光飞逝,岁月如梭,时间就如手里的沙子……咳咳画风不对,回来回来。就这样深度学习热潮爆发了,计算机视觉迎来了全新的纪元,手部姿态也翻开了崭新的篇章!随着CNN兴起、计算机硬件算力的提升、消费级相机的普及、数据集的增多,手部姿态估计进入以深度学习为依托的时代。

    相比于早期,精度提升、处理能力增强了、应用广泛,输入的图像数据也越来越多元化:depth、RGB、RGB-D。当然还是video,但是video处理起来也是一帧一帧的RGB图像,所以把它算作RGB。研究者们也不再满足于在二维图像中回归姿态,3D的手部姿态估计也取得了长足稳定的发展,并且在至今仍保持自己的热点地位。

    得益于以上的工作,姿态估计的应用越来越广泛,关于手部姿态估计的一些设想也有了实现的可能。现有的应用实现在方便了工作学习的同时也给生活带来了很多乐趣。

    手势估计助力于体感游戏的发展和实现,出现了虚拟钢琴、虚拟驾驶游戏等应用。AR、VR中也应用此项技术。 手势姿态估计在3D建模领域也有广泛应用,现在已经有一些工作能实时建模出手部模型。可以用于工程中的许多方面,比如3D动画和3D游戏。汽车的智能化发展也受到了大家的广泛关注,在这一方面手势姿态估计也对其有助力。手势姿态估计有助于实现智能驾驶中的无接触操作。
    在这里插入图片描述

    2.About Hand Pose Estimation

    说了这么多,还没有讲讲手部姿态估计到底是干什么。一句话概括:给定输入数据,得到关于手部关键点的二维或三维关键点位置。
    当然这个手部关键点也不是自己想怎么定义就怎么定义的,一般是取决于你选用的数据集。现有的开源数据集主要是分三类:14个关节点的、19个关节点的、21个关节点的。(如果你有钱有时间自己搞了一个数据集,也不是不可以自己定义关键点)其中绝对大部分是采用21个关键点。
    这个21个关键点是:

    在这里插入图片描述
    姿态估计已经前前后后发展了十几年,手部姿态估计也发展了很长时间。手部姿态估计面临着在这里插入图片描述
    研究者们为了解决手势姿态估计的挑战,提出了许多优秀的解决方案。下面咱们就来了解一下

    3.Approaches

    如果将手部姿态估计按照最终的生成方式来分来的话可以分为两类:基于检测的方法和基于回归的方法。基于检测的方法是通过生成heatmap来得到最终的预测关键点。基于回归的方法则是直接回归关键点的位置坐标。之前的方法基本上是采用回归的方法,采用全连接的方法直接回归关键点的坐标位置,优点是输出即为坐标点,训练和前向速度很快。缺点是缺乏空间泛化能力,丢失了特这个图上的空间信息。但是从15年的《Flowing ConvNets for Human Pose Estimation oin Videos》这篇论文之后,姿态估计基本上是采用检测的方法。

    目前在深度学习中常用的姿态估计框架为(我自己画的,如有错漏请见谅):
    在这里插入图片描述
    以上框架也包含了二维姿态回归。从输入上讲,输入的数据可以是depth、RGB、RGB-D。如果淡出从输入数据上看,最近几年的工作集中于RGB,一部分是depth但是RGB-D的工作相对较少。在从单幅RGB回归3D姿态取得了令不错的成果。

    特征提取网络部分呢,主流的是使用ResNet-50网络,还有使用VGG-19和Hourglass网络的。相对别的领域,手部姿态估计使用的特征提取网络相对单一。特征提取之后会生成Feature Map.

    2D Detector部分是为了生成HeatMap,这里的HeatMap是某一位置为特定关节点的概率图。

    后续经过3D回归网络回归出三维坐标。

    3.1 机器学习方法

    //TODO

    3.2 深度学习方法

    3.2.1 Monocular Real-time Hand Shape and Motion Capture using Multi-modal Data

    在这里插入图片描述
    这篇论文是2020CVPR的论文,效果达到了state-of-the-art。
    论文的优点是:
    ①精度高、速度快
    ②提出逆运动学网络(IKNet)

    可以看到上图论文的框架主要分为两部分:回归和建模,这里我们主要讨论姿态回归部分。作者将这一部分称为DetNet,DetNet以单个RGB图像为对象,在图像空间中输出相对根和尺度归一化的三维手部关节预测和二维手部关节预测。DetNet的体系结构包括三个部分:特征提取器、2D检测器和3D检测器。可以看到,整个流程清晰明了,采用了常见的姿态估计框架。

    论文的主要思想是输入RGB图大小为128×128,对输入的图像经ResNet50网络输出大小为32×32×256的特征图块F。在2D Detector部分,通过两层的卷积层生成HeatMap,该热点图表征了像素点被关节点J覆盖的概率,用于2D姿态估计。

    3D Detector
    从置信图和特征图回归3D手部姿态。
    输入:Feature Maps F+Heat Maps H
    中间:Delta Maps D
    输出:Location Maps L
    D是子节点相对于根节点的方向向量,L是手部的三维关节点的位置。这部分需要仔细说一说。

    对于这部分的思想,作者没有详细的说,需要阅读:《VNect: Real-time 3D human Pose Estimation with a Single RGB》

    D中的每一个像素Db编码骨骼b的方向,这个方向表示的是从父关节到子关节的3D向量表示。为什么要有这种表示呢?我猜测是手部姿态毕竟也是有运动学关系的,这种中间表示需要明确地告知网络运动链中相邻关节的关系。

    关于是如何回归3D坐标的,需要参考论文VNect,分别从XYZ坐标轴表示的图中选择置信度最大的点所对应的值为做坐标轴的数值。对XYZ轴都执行以上操作,将得到的值保存为三维坐标点,就得到了三维关节坐标图L。
    可以参考下图:

    在这里插入图片描述

    3.2.2

    在这里插入图片描述介绍了符合主流框架的论文,接下来的这一篇在姿态估计中是别具一格的。论文主要思想是采用多任务信息共享机制。对single depth mapp做手部姿态估计。提出了CrossInfoNet网络,该网络有两个子任务:手掌的姿态估计和手指的姿态估计,并采用两分支交叉连接结构,在子任务之间共享有益的互补信息。。除此之外还使用了heatmap用于指导特征提取部分获得更好的特征图。最后作者证明他们的网络是可靠的:
    通过广泛的自我比较实验和在四个公共手姿态数据集上与最先进的方法进行比较来评估提出的CrossInfoNet的有效性。

    第一部分是初始特征提取模块,将heat map作为约束来学习更好的特征映射并得到所有初始联合特征。
    第二部分是特征细化模块,将任务分解为两个子任务,一个子任务是手掌关节估计,另一个子任务是手指关节估计。本模块中的信息共享策略指导网络利用来自对手的有用线索,以有效地提高手部姿态估计的性能。
    最后是联合坐标回归模块。

    展开全文
  • 基于响应热力图后处理的手部姿态估计,梁宇,肖波,手部姿态估计是经典的计算机视觉任务,现有主流算法中主要集中在3D维度姿态估计,而随着移动互联网的发展以及人机交互的需求,2D��
  • 相反,本文提出了一种基于图卷积神经网络(Graph Convolutional Neural Network, Graph CNN)的方法来重建完整的手部三维网格 (mesh),其中包含了更丰富的手部三维形状和姿势信息。为了在完全监督下训练网络,本文创建...

    [Abstract]

    本文的工作解决了一个新的和具有挑战性的问题,即从单一RGB图像估计完整的3D手的形状和姿势。目前基于单目RGB图像的手的三维分析方法主要集中于估计手关键点的三维位置,但这不能充分表达手的三维形状。相反,本文提出了一种基于图卷积神经网络(Graph Convolutional Neural Network, Graph CNN)的方法来重建完整的手部三维网格 (mesh),其中包含了更丰富的手部三维形状和姿势信息。为了在完全监督下训练网络,本文创建了一个包含 GroundTruth 三维网格和三维姿态的大规模合成数据集。当在没有3D GroundTruth 数据的情况下对网络进行微调时,本文提出了一种弱监督方法,即利用深度图 (depth) 作为训练过程中的弱监督。通过对本文提出的新数据集和两个公共数据集的广泛评估,表明,我们所提出的方法可以产生精确和合理的三维手部网格,并可以实现优越的三维手部姿态估计精度,与最先进的方法相比。
    (摘要指出之前的手部姿态估计方法大多止步于回归三维手部关键点的坐标,作者认为这种抽象后的手部关键点坐标并不能反映手部形态的细节,所以提出了本文的方法用于得到一个更准确的手部shape)

    【Introduction】

    基于视觉的三维手部分析在虚拟现实(VR)和增强现实(AR)中有着广泛的应用,是一个非常重要的课题。然而,尽管经过多年的研究,由于手的形状、姿势、手势、遮挡等的多样性和复杂性,它仍然是一个悬而未决的问题。在过去的十年中,我们见证了从深度图像中估计三维手部姿态的快速发展。考虑到RGB相机比深度相机更广泛,一些最近的工作开始从单目RGB图像中研究3D手部分析,主要集中在估计稀疏的3D手部关节位置,但忽略了密集的3D hand shape。然而,许多身临其境的VR和AR应用往往需要精确估计三维手的姿势和形状。

    (从这一段的背景介绍以及应用意义来看,作者所提出的方法主要应用于AR/VR领域,在一些虚拟现实的应用中,的确需要更加逼真和精细化的手部模型。所以,作者顺势指出之前研究的痛点:仅仅得到关节点没有进一步得到3D hand shape)

    这促使我们提出了一个更具挑战性的任务:如何从单个RGB图像中联合估计手部关节的三维位置,以及手部表面的完整三维网格?在这项工作中,我们开发了一个合理的解决方案,如下图所示。
    (由下图可以看到,本文的方法不仅能获得2D和3D的手部关键点还能获得准确的2D和3D手部shape)
    在这里插入图片描述
    以前也有人研究过单视图三维手部姿态估计任务,但主要是在可控设置中,在这种情况下,深度传感器是可用的(之前的方法必须依赖深度传感器)。其基本思想是通过迭代优化,将生成式3D手模型拟合到输入深度图像中。相比之下,这里我们考虑从单目RGB图像估计三维手的形状,这还没有被广泛研究(没有被广泛研究,所以作者说他解决了一个新的问题)。在RGB图像中缺乏明确的深度线索,使得这项任务难以通过迭代优化方法解决。在这项工作中,我们采用端到端方式训练的深度神经网络,直接从单个RGB图像恢复3D手网格。具体地说,我们预先定义了一个代表手表面的三角形网格的拓扑结构,目的是利用深度神经网络估计网格中所有顶点的三维坐标。要实现这一目标,有几个挑战。

    (这段作者大致讲了思路:首先有一个初始三维网格手模型,然后领用深度学习细化三维网格模型,使之精细化)

    第一个挑战是三维手网格生成的输出空间的高维性。与稀疏的手骨架三维关节位置估计(如21个关节)相比,使用传统的CNN估计密集网格顶点(如1280个顶点)的三维坐标要困难得多。一个简单的解决方法是遵循人体形状估计中常用的方法,即回归预定义的可变形手模型的低维参数,如MANO。

    在本文中,我们认为输出的三维手网格顶点实质上是图结构数据,因为一个三维网格可以很容易地表示为一个GRAPH。为了输出这样的图结构数据并更好地利用图中网格顶点之间的拓扑关系,受最近关于图卷积网络的研究的启发,我们提出了一种新的基于图卷积网络的方法。具体地说,我们采用带上采样和非线性激活的层次图卷积,从骨干网提取的图像特征中生成三维手网格顶点。有了这样一个端到端可训练的框架,我们的基于Graph cnn的方法可以更好地表示变化很大的三维手形,也可以更好地表达三维手形的局部细节。
    除了模型上的挑战,另一个挑战是缺乏真实世界图像的GroundTruth 3D手网格训练数据。在真实世界的RGB图像上手动标注GroundTruth3D手网格是非常费力和耗时的。因此,我们选择创建一个包含三维手网格和三维手姿势的地面真实值的大规模合成数据集,以供训练。然而,由于它们之间的领域差距,在合成数据集上训练的模型通常对真实数据集产生不满意的估计结果。为了解决这个问题,受到启发,我们提出了一种新的弱监督方法,利用深度图作为一个弱监督的3D网格生成,因为深度图可以很容易地由RGB-D相机在收集GroundTruth训练数据时捕获。更具体地说,当对真实数据集进行微调时,我们将生成的3D手网格渲染到图像平面上的深度图,并将深度图相对于参考深度图的损失最小化,如图3所示。注意,在测试期间,我们只需要一个RGB图像作为输入来估计完整的3D手的形状和姿势。

    (让我们来梳理一下作者解决问题的思路。作者想要解决目前尚未有许多人研究的基于单目RGB图像的手部形态的估计问题,解决问题需要数据和模型。数据方面,因为之前研究的人不多,所以没有现成可用的数据集,所以作者自己创建了一个数据集。因为采集真实数据集并标注并不好实现,所以作者选择使用合成数据集。作者又希望模型的泛化能力强,所以想出了使用弱监督来修正。模型方面呢,因为一般的手部shape估计大家为了方便基本上都用MANO,所以作者也使用了MANO)

    [Contributions]

    ① 提出了一个全新的端到端训练的卷积神经网络模型,实验结果证明该方法可以得到一个更细致的结果
    ②通过将生成的3D网格渲染到图像平面上的深度图,并利用参考深度图作为弱监督,我们提出了一个现实世界数据集上的弱监督训练pipeline,不需要对真实世界图像的3D手网格或3D手姿势进行任何注释。
    ③提出了一个大型合成数据集,包含3D关键点标注以及手部表面的3D hand mesh。

    【Method】

    在这里插入图片描述
    这篇论文的思路可以给手里数据集比较少的同学参考。
    我们先把网络一分为二:直接监督pipeline与弱监督pipeline
    直接监督pipeline很好理解,是一个端到端的网络。输入为single RGB Image输出为 3D hand mesh以及 3D hand pose。输出使用GroundTruth作为监督。
    弱监督pipeline,其实跟直接监督相差不大,唯一的区别就是因为没有标注,网络生成的3D hand mesh无法使用GroundTruth作为监督,下一步是让生成的mesh映射到depthmap上,使用真实的depth map做监督。这样便可以达到指导 hand mesh网络学习的目的。

    展开全文
  • 使用多任务机制,对single depth mapp做手部姿态估计。提出了CrossInfoNet网络,该网络有两个子任务:手掌的姿态估计和手指的姿态估计,并采用两分支交叉连接结构,在子任务之间共享有益的互补信息。。除此之外还...

    在这里插入图片描述

    一、论文内容

    摘要

    使用多任务机制,对single depth mapp做手部姿态估计。提出了CrossInfoNet网络,该网络有两个子任务:手掌的姿态估计和手指的姿态估计,并采用两分支交叉连接结构,在子任务之间共享有益的互补信息。。除此之外还使用了heatmap用于指导特征提取部分获得更好的特征图。最后作者证明他们的网络是可靠的:
    通过广泛的自我比较实验和在四个公共手姿态数据集上与最先进的方法进行比较来评估提出的CrossInfoNet的有效性

    1.Introduction

    虽然3D姿态估计作为计算机视觉的热点问题已经发展了很多年,但是现在还无法解决关节的高度灵活、局部自相似性、严重遮挡。最近,研究领域重回RGB手部姿态估计研究的热潮,出现了许多优秀的work。作者把手部姿态估计分为两类:基于生成模型的方法和基于判别学习的方法。受益于数据集扩充和硬件计算能力的提升,CNN表现显著。

    将深度图作为二维图像处理,直接回归三维关节坐标是一种常用的手部姿态估计方法。虽然将2.5D深度图转换为3D体素化形式会保留更多的信息但其参数负荷较大,仍存在信息缺陷。在本工作中,我们倾向于利用2D cnn的进步,并尝试从2D输入中挖掘更多的信息。
    作者除了认为直接从CNN获取2D更方便之外呢,还认为共享机制助于强化具有较强泛化能力的模型。然而,在基于CNN的手部姿态估计中,多任务学习还没有得到足够的重视(所以作者要搞这个)。受参考论文的启发,设计了一种新的CNN结构,用于多任务设置下的手部姿态估计。层次模型是手部姿态估计网络的一种,在竞争中表现出了优异的性能(怎么又提到了乘此模型?)。通常通过分别处理不同手指或不同类型关节将姿态估计问题分成子任务。

    整体的手部姿态的状态是由手掌的姿态决定的,而局部的姿态则是由手指关节的动作决定的(手指细化细节)。
    作者认为从深度图回归3D坐标,之间的映射是非线性的,所以作者没有采用回归坐标的方式,而是使用heatmap。在此思想的基础上,提出了一种热图引导的特征提取网络结构,巧妙地应用了多任务参数共享。

    总结:本文主要贡献如下:
    ①提出了新的多任务手部姿态回归网络。
    ②提出了一种热图引导的特征提取结构。它将更有效的特征从热图检测任务转移到联合回归任务中,而不失去端到端训练的优势。
    ③实现了几个基线来调查多任务设置中的信息共享,这将为这个问题提供有价值的见解。

    2.Related Works

    略过一些

    多任务信息共享:通过在相关任务之间共享信息,多任务学习可以使模型更好地在任务上泛化。深度神经网络中的多任务学习已经成功地应用于许多领域,如人体姿态估计。

    3.Method

    在这里插入图片描述
    为了处理从输入深度数据到输出关节坐标的高度非线性映射,将手姿估计问题简化为子任务,每个子任务负责一个子部分或子集的关节估计。这就是为什么要设计层次模型来实现这个任务。

    在此,提出了一个基于CrossInfoNet信息共享架构的网络模型,如上图所示。
    第一部分是初始特征提取模块,将heat map作为约束来学习更好的特征映射并得到所有初始联合特征。
    第二部分是特征细化模块,将任务分解为两个子任务,一个子任务是手掌关节估计,另一个子任务是手指关节估计。本模块中的信息共享策略指导网络利用来自对手的有用线索,以有效地提高手部姿态估计的性能。
    最后是联合坐标回归模块

    3.1 Heat-map guided feature extraction

    当使用较浅的CNN进行特征提取时,结果通常不令人满意。
    针对这一问题,论文设计了一种新的特征提取网络,分为初始特征提取模块和特征细化模块两个阶段

    在这里插入图片描述

    对于初始特征提取模块,我们选择有四个残差模块的ResNet-50,因为它效率很高,如图所示。为了获得更多的信息,采用特征金字塔结构来合并不同的特征层。将回归初始关节位置的特征图记为T。不同于以往基于热图的检测方法,这里的热图仅作为指导特征提取的约束,不会传递给后续模块。将获得的256个通道的特征映射T输入到特征细分模块。剩余块的kernel大小为3×3,stride为2的max-pooling layers的kernel大小为2×2。我们使用一个带有3×3滤波器的卷积层来获得所有关节的热图输出

    此部分的具体实现细节:

    选择有四个残差的ResNet50网络
    采用特征金字塔结构来合并不同的特征层
    将回归初始关节位置的特征图记为T
    这里的heatmap仅作为指导特征提取的模块,不会传入后续模块
    feature mapT有256个通道,后续会输入到特征细分网络
    网络的具体参数residual block 3×3,max_pooling layers 2×2 tride2,卷积层大小3×3

    3.2. Baseline feature refinement architecture

    多任务信息共享模块的基线网络:
    在这里插入图片描述
    为什么分为两个分支?为什么采取多任务?

    在所有关节中,手掌关节的活动空间比手指关节小,所以两部分的回归复杂度也不同。
    如果使用两个不同的参数集来表示手掌和手指的姿势,那么手部的姿势会更容易回归。因此,论文将手掌关节回归和手指关节回归分离为两个独立的分支。

    3.3. New feature refinement architecture

    在这里插入图片描述

    基线网络仅从各个分支独立考虑手掌和手指的位姿回归,与通用分支网络没有本质区别。除了输入特征T之外,它们之间几乎没有共享的信息。

    而在palm回归分支中,存在残留的手指特征。这些手指特征可能是手掌位退化的噪声,但它们对手指位退化是有益的。手指分支也是如此。为了充分利用两个分支之间有用的“噪声”信息,尝试设计一个多任务信息共享的网络。

    双任务十字绣网络是一种通用的多任务网络,如下图所示。它利用多个十字绣单元通过惰性融合来利用其他任务的知识(但是这个网络不好,作者最终没有采用这个网络),此处只是为了对比说明作者采用的网络比较好。

    然而,lazy cross-stitch 可能会引起子任务之间的干扰,并且对子任务之间的相似性和相关性没有明确的认识:
    在这里插入图片描述
    希望积极地指导子任务应该如何相互交互。通过引导信息共享,对与同一目标相关的特征进行合并和增强。图5(b)给出了所提出的多任务信息共享机制。它使用“跳线”从全局手部特征中减去手掌特征来分离手掌和手指(手指),然后使用十字线将两个分支的手指特征连接起来。它减少了来自手掌的干扰,并再次增强了手指的特征,反之亦然。
    在这里插入图片描述
    在这里插入图片描述
    网络细节:

    ①初始特征提取模块的输出T,作为细化特征网络的输入。T包含手掌特征和手指特征。
    P0为手掌主导特征。
    ②对T和P0执行 skip-connection的相减操作会得到剩余手指特征F_
    F_作为手指的mask
    这个mask对手掌而言是噪声,但是对手指姿态回归是有意的,可以帮助手指这一分支更好地提取特征
    同理会得到P_
    ③通过cross-connection,P0会与p_连接,形成增强地palm特征p1
    利用相似方法得到f1
    通过以上方式,作者提出网络在不同子任务进行了关联

    3.4.Loss Function

    采用均方误差计算Ground Truth与预测之间地Loss

    3.4.1
    在初始特征提取模块中,我们使用热图作为约束.定义热图的检测损失为:
    在这里插入图片描述

    A表示整个手地关节数,Hn^a表示估计地heatmap

    3.4.2
    特征细化模块地约束:
    在这里插入图片描述
    3.4.3
    在回归模块中,使用三个损耗来监督每个子任务和总关节的最终输出。分别为掌关节回归损失Lep、指关节回归损失Lef和全手关节回归损失La。
    在这里插入图片描述
    总体损失:
    在这里插入图片描述

    α、β是平衡检测损失和回归损失的因素。作者在实验中,α和β分别设置为0.01和1。

    展开全文
  • 作者 | 镜子@知乎来源 | https://zhuanlan.zhihu.com/p/446726196编辑 | 极市平台导读手部姿态估计任务作为一个对空间信息敏感的下游任务,任何...
  • 手部姿态估计常用公开数据集
  • 【Abstract】 双手交互是理解人类行为得到...(该论文所提出的创新点十分清晰,该论文是为了解决双手交互情境下手部姿态估计不准确的问题。基于此,本文提出了基础的baseline以及包含标注的双手交互数据集) 【Introdu
  • 本发明涉及计算机视觉和深度学习技术领域:,具体而言,尤其涉及一种基于RGBD融合网络的手部姿态估计系统及方法。背景技术::基于视觉的3D人手姿态估计在计算机视觉、虚拟现实、机器人等领域是热点研究问题,已经有...
  • 【手势姿态估计】综述

    千次阅读 2021-07-15 16:55:06
    手部姿态估计相关综述的总结 什么是手部姿态估计 人机交互中的手部交互,可以分为手势识别和手部姿态估计两大技术,手势识别可以认为是模式识别的问题,手部姿态估计则可以认为是回归问题,目标是在三维空间中恢复...
  • 总结了论文中常用的手部姿态估计评价指标:MPJPE/MPVPE、 AUC 并给出python 代码实现 MPJPE 计算预测关节点坐标与groundtruth关节点坐标的平均欧几里得距离 def mpjpe(results_pose_cam_xyz, gt_xyz ): avg_est_...
  • 手部姿态估计: 姿态(2D/3D keypoint)的位置(通常是21个). 最经典的实现: 2018年,Olha CHERNYTSKA(毕业于乌克兰天主教大学)的硕士毕业论文 3D keypoint的坐标及实现伪代码 针对手部的参数化模型,主要...
  • 手势姿态估计综述

    千次阅读 2021-03-16 15:58:59
    手势姿态估计 人手分割的目标是将手从整个场景中分割出来。特征提取是指从观测数据中提取出用于姿态估计的视觉线索(比如手掌轮廓等)。手模型是为考虑手的几何结构、运动约束等而引入。标注数据指用于训练的真实或...
  • 手部姿态估计常用的评估指标
  • 基于参数化模型(MANO)的手势姿态估计---全面剖析

    千次阅读 多人点赞 2021-04-09 10:15:40
    目前, 主流的手部姿态估计的技术方案是使用马普所于2017年提出的MANO参数化模型, 在此基础上回归3D坐标, 这是因为MANO有很合理的结构以及定义好的前向动力学树。本文的目的在于为大家介绍,基于MANO的手部姿态估计的...
  • 其次,得益于强大的开发团队,他们不仅采用了手部姿势估计的最新技术,还提供了易于理解的 API。 第三,网络已准备好在 CPU 上运行,因此进入门槛极低。 可能你会问我为什么不使用本次比赛获胜者的存储库。 事实上...
  • 以往的方法都成功地从未模糊的深度图像中估计三维手部姿态。然而,当深度图像由于快速运动而受到运动模糊干扰时,性能便会下降。在本文中,我们利用红外图像(IR)作为输入,IR图在快速的运动下只有较弱的运动模糊。该...
  • 目录动机与贡献结构设计Loss设计Heat-map LossMesh Loss3D Pose Loss效果 动机与贡献 结构设计 Loss设计 Heat-map Loss LH=∑j=1J∣∣Hj−Hj^∣∣22 L_H = \sum_{j=1}^{J} ||H_j - \hat{H_j}||^2_2 ...
  • 我们提出了一种从单个RGBD图像估计真实世界坐标系中的三维人体姿态的方法,并表明它超过了从RGB和仅从depth估计姿态的单目三维姿态估计方法的性能。我们的方法建立在强大的彩色图像人类关键点检测器的基础上,并将...
  • 最近在研究手部姿态估计,被问到常用的损失函数有哪些的时候只能回答上来L2损失函数,所以在此整理一下姿态估计(回归)常用的损失函数。 以下内容均来自网络。 L1损失函数 L1范数损失函数,也被称为最小绝对值偏差...
  • 本文盘点ECCV 2020 中所有与人体形状和姿态估计(HumanShape and Pose Estimation)相关的论文,总计 4 篇。人体感知(Human Sensing)是...
  • 2D/3D姿态估计整理

    千次阅读 2019-10-08 17:01:55
    主要参考: ...1)Top-Down(自上而下)方法:将人体检测和关键点检测分离,在图像上首先进行人体检测,找到所有的人体框,对每个人体框图再使用关键点检测,这类方法往往比较慢,但姿态估计准...
  • OpenPose:实时多人2D姿态估计

    千次阅读 2019-05-29 02:39:48
    可以称是世界上第一个基于深度学习的实时多人二维姿态估计,是人机交互上的一个里程碑,为机器理解人提供了一个高质量的信息维度。 其理论基础来自Realtime Multi-Person 2D Pose Estimation using Part Affinity...
  • 基于单幅深度图像的手部姿态估计是计算机视觉和人机交互领域的一个重要课题。尽管在卷积神经网络的推动下,这一领域最近取得了进展,但精确的手部姿态估计仍然是一个具有挑战性的问题。本文提出了一种新的姿态引导的...
  • 姿态估计有很多用途,从对身体作出反应的交互式装置到增强现实、动画、健身等。TensorFlow 希望该模型的可访问性能够鼓励更多的开发者和制造者在自己独特的项目中进行姿态检测实验和应用。虽然很多其他的姿态检测...
  • 结合yolov3对手进行目标检测,而后对手进行姿势识别,获得手部骨骼关节点。初步实验效果发现,鲁棒性不强易受遮挡影响,但识别的准确率十分可观 运行步骤 1.目标检测 2.判断重心点 3.识别手部骨骼关键点 代码链接: ...
  • 手势姿态估计:Mask-pose Cascaded CNN for 2D Hand Pose Estimation from Single Color Image解读 论文网址:https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8529221 项目网站:...
  • 大多数现有的基于深度学习的手势姿态估计方法都使用标准三维卷积神经网络提取三维特征,估计手部关节坐标。该方法提取的特征缺乏手部的多尺度信息,限制了手势姿态估计的精度。另外,由于三维卷积神经网络巨大的计算...
  • 深度学习的快速发展促进了3D手部姿态估计的发展,卷积神经网络效果好于随机森林。然而,在当前的SOTA的方法中,基于卷积神经网的方法均是基于深度图的,缺少基于RGB的方法。本文想探讨使用卷积神经网络并将RGB信息与...

空空如也

空空如也

1 2 3 4 5 ... 20
收藏数 634
精华内容 253
关键字:

手部姿态估计