定义
根据深度或RGB双目图像提取一组预定义的手关节位置[1]。具体来说,输入是包含人手的深度或RGB-D数据,输出是预先定义的K 个手关节的三维位置和角度。忽略关节角度约束,一般来说,手具有25–50个自由度(DoF)。如下图1所示,一种预先定义的包含21个关节和26个自由度(DoF)的手模型。
图 1 手模型示意图,显示了21个关节和26个自由度(DoF)的典型手运动模型
3D手姿估计的算法一般分为模型驱动法和数据驱动法两大类 [1] 。模型驱动法的策略是构造一个模型来比较生成的手势图像与实际图像的差异,并采用优化问题的思路来最小化这个差异,进而实现三维手势的追踪和识别。下图二所示为一种基于Gauss-Newton 优化法进行手势追踪和识别的效果示意图 [2] 。与之相对的数据驱动方法的策略是:预先对手势图像进行标注,然后利用标注好的数据训练一个分类器或者回归模型,进而实现三维手势的追踪和识别 [3] 。
图 2 基于Gauss-Newton 优化法进行手势追踪和识别的效果示意图
参考文献
[1] Li R, Liu Z, Tan J. A survey on 3D hand pose estimation: Cameras, methods, and datasets[J]. Pattern Recognition, 2019, 93: 251-272.
[2] Taylor, Jonathan, et al. "Efficient and precise interactive hand tracking through joint, continuous optimization of pose and correspondences. " ACM Transactions on Graphics (TOG) 35.4 (2016): 1-12.
[3] Otberdout. "Hand pose estimation based on deep learning depth map for hand gesture recognition." 2017 Intelligent Systems and Computer Vision (ISCV). IEEE, 2017.