谷歌用机器学习完成波动实时的手部追踪、手势辨认
作者头像
  • 王管月
  • 2019-08-23 11:55:46 2

谷歌近期推出了一种全新的手部感知技术,旨在改善用户体验,尤其是在手语理解和手势控制方面。这项技术不仅能在增强现实场景中实现数字内容与现实世界的叠加,还能有效解决手部感知过程中常见的遮挡和不稳定因素带来的挑战。

1. 机器学习驱动的手部追踪与手势识别

谷歌的解决方案基于一个由多个模型组成的机器学习管道,主要包括三个部分:

  • 手掌检测模型(命名为BlazePalm):该模型能够在整幅图像中检测出手的位置,并返回一个包含方向信息的手部边界框。与传统的面部识别模型类似,它能有效地检测出各种大小的手部,以及被遮挡的手部。
  • 手部关键点模型:在手掌检测模型确定的手部区域内,该模型能精准地定位21个3D关键点,包括手部和手指的具体位置。
  • 手势识别器:基于前两步计算出的关键点,该模型能将手部姿势分类为一系列特定的手势。

2. 实时手部/手掌检测

谷歌通过名为BlazePalm的手掌检测模型解决了手部检测的复杂性问题。该模型特别针对移动设备进行了优化,使其能够在实时环境中高效运行。由于手掌相对于手指更容易检测,谷歌选择先检测手掌,再进一步细化手部姿态。此外,通过采用不同的训练策略和损失函数,BlazePalm在手掌检测任务上的表现显著优于传统方法。

3. 高精度的手部关键点定位

在成功检测到手掌后,谷歌的手部关键点模型会在检测到的手部区域内精确定位21个3D关键点。为了获取精确的数据,谷歌手动标注了大约3万张真实世界图像,并结合了合成图像数据,以确保模型能够适应各种背景和姿态。混合训练方法使得该模型在实际应用中表现出色。

4. 精准的手势识别

通过分析手部关键点,谷歌提出了一种简单而有效的方法来识别手势。这一过程主要依赖于对各手指弯曲程度的评估,并将这些信息映射到预定义的手势集合中。目前,该系统已经能够识别多种文化中的基本手势,如“竖起大拇指”、“握拳”等。

5. MediaPipe中的手部感知

借助MediaPipe框架,谷歌将上述感知流程构建为一个模块化的组件图。MediaPipe提供了丰富的工具,可以高效处理模型推理、媒体内容处理和数据转换等多种任务。谷歌还利用TFLite在现代智能手机上实现了GPU加速的神经网络计算,进一步提升了系统的性能。

6. 未来展望

谷歌计划继续改进这项技术,使其能够更准确地追踪手部运动,并支持更多种类的手势识别。谷歌相信,通过开放源代码,这一技术将激发更多的创新应用和研究,推动相关领域的发展。

以上内容展示了谷歌在手部感知技术上的最新进展,该技术有望在未来为用户提供更加丰富和直观的交互体验。

    本文来源:图灵汇
责任编辑: : 王管月
声明:本文系图灵汇原创稿件,版权属图灵汇所有,未经授权不得转载,已经协议授权的媒体下载使用时须注明"稿件来源:图灵汇",违者将依法追究责任。
    分享
手部辨认手势波动实时追踪机器完成学习谷歌用
    下一篇