谷歌用机器学习完成波动实时的手部追踪、手势辨认

王管月
2019-08-23 11:55:46 2

+关注

谷歌近期推出了一种全新的手部感知技术，旨在改善用户体验，尤其是在手语理解和手势控制方面。这项技术不仅能在增强现实场景中实现数字内容与现实世界的叠加，还能有效解决手部感知过程中常见的遮挡和不稳定因素带来的挑战。

1. 机器学习驱动的手部追踪与手势识别

谷歌的解决方案基于一个由多个模型组成的机器学习管道，主要包括三个部分：

手掌检测模型（命名为BlazePalm）：该模型能够在整幅图像中检测出手的位置，并返回一个包含方向信息的手部边界框。与传统的面部识别模型类似，它能有效地检测出各种大小的手部，以及被遮挡的手部。
手部关键点模型：在手掌检测模型确定的手部区域内，该模型能精准地定位21个3D关键点，包括手部和手指的具体位置。
手势识别器：基于前两步计算出的关键点，该模型能将手部姿势分类为一系列特定的手势。

2. 实时手部/手掌检测

谷歌通过名为BlazePalm的手掌检测模型解决了手部检测的复杂性问题。该模型特别针对移动设备进行了优化，使其能够在实时环境中高效运行。由于手掌相对于手指更容易检测，谷歌选择先检测手掌，再进一步细化手部姿态。此外，通过采用不同的训练策略和损失函数，BlazePalm在手掌检测任务上的表现显著优于传统方法。